实时追踪科研动态｜具备记忆增强多模态语言模型的开放世界多任务智能体-JARVIS-1，11.13精选新论文

AMiner学术搜索和科技情报挖掘

于 2023-11-14 13:44:10 发布

阅读量232

点赞数

文章标签：语言模型人工智能自然语言处理 agent 智能体多模态

本文链接：https://blog.csdn.net/ai_conf/article/details/134396907

版权

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。

然而，传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：https://www.aminer.cn/chat/g/explain

2023年11月13日精选新论文列表：

1.Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model

这篇论文介绍了一种名为Instant3D的新方法，可以快速、高质量地生成3D资产。与现有的方法不同，Instant3D采用了一种两阶段的方法，首先使用一个经过微调的2D文本到图像扩散模型，一次性生成一个稀疏的四结构化一致视图，然后使用一个基于变换器的稀疏视图重建器，直接从生成的图像中回归NeRF。通过大量实验，作者证明了他们的方法可以在20秒内生成高质量、多样且无Janus问题的3D资产，比之前基于优化的方法快两个数量级，之前的方法需要1到10小时。

https://www.aminer.cn/pub/65518a95939a5f4082a65ebe/?f=cs

2.Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization

这篇论文研究了一种用于下游任务自适应的原理性微调范式——正交微调（OFT）。尽管OFT表现出良好的泛化能力，但由于正交矩阵的高维数，它仍然使用相当多的可训练参数。为了解决这个问题，作者从信息传输的角度审视OFT，并确定了一些关键需求，以实现更好的参数效率。受到Cooley-Tukey快速傅里叶变换算法实现高效信息传输的启发，作者提出了一种使用蝴蝶结构的 efficient orthogonal parameterization。将此参数化应用于OFT，创建了一种新颖的参数高效微调方法，称为正交蝴蝶（BOFT）。通过将OFT作为特殊情况进行概括，BOFT引入了一种通用的正交微调框架。最后，作者对将大型视觉转换器、大型语言模型和文本到图像扩散模型适应各种视觉和语言下游任务进行了广泛的实证研究。

https://www.aminer.cn/pub/65518ab0939a5f4082a66b9e/?f=cs

3.Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs

这篇论文介绍了一种名为 Lumos 的新框架，用于训练语言代理。该框架采用统一的数据格式和基于开源大型语言模型（LLM）的模块化架构。Lumos 包括三个不同的模块：规划、接地和执行。规划模块将任务分解为一系列高阶、工具无关的子目标，然后通过接地模块的低阶动作使其具体化。这些动作由执行模块执行，使用一系列现成的工具和 API。为了有效地训练这些模块，收集了高质量的子目标和动作注释，并用于微调开源 LLM 以进行各种任务，如复杂问题回答、网络任务和数学问题。

利用这种统一的数据和模块化设计，Lumos 不仅实现了与当前最先进的代理可比或优越的性能，而且还表现出几个关键优势：(1) Lumos 在复杂问题回答和网络任务方面超越了 GPT-4/3.5 基础代理，同时在数学任务方面与明显更大的 LLM 代理表现相当；(2) Lumos 优于使用传统训练方法和链式思维训练的公开源代理；(3) Lumos 能够有效地推广到未见的交互任务，超越了更大的 LLM 基础代理和甚至超过了专业代理的表现。

https://www.aminer.cn/pub/65518952939a5f4082a5d9c9/?f=cs

4.Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems

这篇论文介绍了Hiformer模型,用于推荐系统的异构特征交互学习。特征交互是构建推荐系统的关键,但在大规模应用中,由于稀疏和大规模输入特征空间,学习特征交互非常具有挑战性;同时,由于指数解决方案空间,手动制作有效的特征交互是不可行的。作者提出利用基于Transformer的架构和注意力层自动捕获特征交互。虽然Transformer架构在自然语言处理和计算机视觉等领域取得了巨大成功,但在工业界应用于特征交互建模方面还未有太多采用。作者旨在弥合这一差距。他们确定了将vanilla Transformer架构应用于大规模推荐系统的两个关键挑战:(1)Transformer架构无法在自注意力层中捕获异构特征交互;(2)Transformer架构的服务延迟可能太高,无法在推荐系统中部署。作者首先提出了一种异构自注意力层,这是一种简单而有效的修改Transformer中自注意力层的方法,以考虑特征交互的异质性。然后,他们引入了Hiformer(Heterogeneous Interaction Transformer),以进一步提高模型表现力。通过低秩近似和模型剪枝,Hiformer具有快速的在线部署推理速度。大量的离线实验结果证实了Hiformer模型的有效性和效率。作者已成功将Hiformer模型部署到Google Play上的真实世界大规模应用排名模型中,关键参与度指标显著提高了2.66%。

https://www.aminer.cn/pub/655189d8939a5f4082a60f25/?f=cs

5.FMViT: A multiple-frequency mixing Vision Transformer

这篇论文介绍了一种名为FMViT的高效混合视觉转换器架构。现有的视觉转换器（ViT）由于自注意力的二次时间复杂度和内存复杂度，在实际工业部署场景中（如TensorRT和CoreML），与传统卷积神经网络（CNN）相比存在挑战。尽管有一些尝试通过设计CNN-Transformer混合架构来解决这个问题，但它们的整体性能并未达到预期。为了解决这些问题，我们提出了一种名为FMViT的高效混合ViT架构。这种方法通过结合不同频率的高频特征和低频特征来增强模型的表达能力，使其能够有效地捕捉局部和全局信息。此外，我们还引入了部署友好的机制，如卷积多组重参数化（gMLP）、轻量级多头自注意力（RLMHSA）和卷积融合块（CFB），以进一步提高模型的性能并减少计算开销。我们的实验证明，在各种视觉任务中，FMViT在延迟/准确性方面的表现超过了现有的CNN、ViT和CNNTransformer混合架构。在TensorRT平台上，FMViT在ImageNet数据集上的top-1准确率比Resnet101高2.5%（83.3% vs. 80.8%），同时保持类似的推理延迟。此外，FMViT的性能与EfficientNet-B5相当，但推理速度快43%。在CoreML上，FMViT在ImageNet数据集上的top-1准确率比MobileOne高2.6%，推理延迟与MobileOne相当（78.5% vs. 75.9%）。我们的代码可以在https://github.com/tany0699/FMViT找到。

https://www.aminer.cn/pub/65518961939a5f4082a5dfd7/?f=cs

6.JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

这篇论文介绍了一种名为JARVIS-1的开源世界多任务智能体，它使用记忆增强的多模态语言模型来达到类似人类的规划和控制。在开源世界中，处理多模态观察（视觉观察和人类指令）是一项关键的里程碑，对于功能更强大的通用智能体来说至关重要。现有的方法可以处理一定长度的开放世界任务，但在任务数量可能无限且无法随着游戏时间逐步提高任务完成能力的情况下，它们仍然面临挑战。JARVIS-1是一种开源世界智能体，可以在流行的挑战性开放世界Minecraft宇宙中感知多模态输入（视觉观察和文本指令），生成复杂的计划并执行具身控制。具体来说，JARVIS-1构建在预训练的多模态语言模型之上，将视觉观察和文本指令映射到计划。计划最终将调度到目标条件控制器。我们为JARVIS-1配备了一个多模态记忆，利用预先训练的知识和实际的游戏生存经验进行规划。在实验中，JARVIS-1在Minecraft宇宙基准测试的200多个不同任务中表现近乎完美，从入门到中级水平。在长期钻石镐任务中，JARVIS-1的完成率达到12.5%，是之前纪录的5倍以上。此外，我们还表明，由于多模态记忆，JARVIS-1能够遵循终身学习范式进行自我改进，激发了更广泛的智能和提高自主性。项目页面可在此处找到：https://craftjarvis-jarvis1.github.io。

https://www.aminer.cn/pub/65518a1f939a5f4082a62ced/?f=cs

7.PolyMaX: General Dense Prediction with Mask Transformer

这篇论文介绍了PolyMaX：一种基于Mask Transformer的通用密集预测方法。密集预测任务，如语义分割、深度估计和表面法线预测，可以很容易地表示为逐像素分类（离散输出）或回归（连续输出）。由于全卷积网络的普及，逐像素预测范式一直很受欢迎。然而，在最近的分割任务前沿，随着transformer架构的出现，特别是mask transformers，社区见证了从逐像素预测到聚类预测的范式转变，直接预测掩码的标签而不是像素。尽管如此，基于逐像素预测范式的方法在需要连续输出的密集预测任务（如深度估计和表面法线预测）仍然占据主导地位。受到DORN和AdaBins在深度估计方面成功的启发，通过离散化连续输出空间实现，我们提出将聚类预测方法推广到通用密集预测任务。这使我们能够将密集预测任务与mask transformer框架统一起来。值得注意的是，PolyMaX模型在NYUD-v2数据集的三个基准测试中展示了最先进的性能。我们希望我们的简单而有效的设计能够激发更多关于利用mask transformers进行更多密集预测任务的研究。代码和模型将对外提供。

https://www.aminer.cn/pub/6551898a939a5f4082a5f1a7/?f=cs

8.Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

这篇论文介绍了一种名为Mirasol3B的多模态自回归模型,用于处理时间对齐和非时间对齐的模态。多模态学习中的一个主要挑战是需要结合异构模态(如视频、音频、文本)。例如,视频和音频的获取速率远高于文本,并且在时间上大致对齐。它们通常与文本不同步,文本作为全局上下文,如标题或描述。此外,视频和音频输入的体积要大得多,并且随着视频长度的增加而自然增长,这自然需要为这些模态分配更多的计算资源,并使得长距离依赖建模更加困难。

作者将多模态建模解耦,将其分成单独的、专注的自回归模型,根据模态的特征处理输入。他们提出了一种名为Mirasol3B的多模态模型,由一个自回归组件用于处理时间同步的模态(音频和视频),以及一个自回归组件用于处理非时间同步但仍然序列化的上下文模态。为解决视频音频输入的长序列问题,作者提出将视频和音频序列进一步划分为连续的片段,并自回归地处理其表示。为此,他们提出了一种组合机制,该机制在一个时间帧内联合建模音频和视频信息。组合器从原始的空间时间信号中学习音频和视频特征,然后学习将这些特征融合,产生每个片段的紧凑但具有表现力的表示。该方法在多个多模态基准测试中实现了最先进的性能,优于更大的模型。它通过学习紧凑表示、控制音频视频特征表示的序列长度以及建模它们在时间上的依赖关系,有效地解决了媒体输入的高计算需求。

https://www.aminer.cn/pub/6551895f939a5f4082a5debc/?f=cs

9.FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor Cores

这篇论文介绍了 FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor Cores，一种针对长序列任务的快速傅里叶变换（FFT）卷积运算的优化方法。现有的长滤波器卷积模型在许多长序列任务中展现了最先进的推理能力，但其在实际运行时间上却落后于最优化 transformer 模型。造成这一差距的主要瓶颈是快速傅里叶变换（FFT），它使长卷积在 $O (Nl o g N)$ 时间复杂度内运行，但在硬件利用方面表现较差。针对这一问题，作者提出了一种名为 FlashFFTConv 的卷积运算优化方法。FlashFFTConv 使用矩阵分解计算 FFT，并利用矩阵乘法单元进行长序列的核融合，减少 I/O。同时，作者还提出了两种稀疏卷积算法：1）部分卷积和 2）频率稀疏卷积，可以通过跳过矩阵分解中的块来实现简单的实现，进一步节省内存和计算资源。实验结果表明，FlashFFTConv 将精确 FFT 卷积的速度提高了 7.93 倍，并在相同的计算预算下，使 Hyena-GPT-s 在 PILE 上的 perplexity 达到 2.3 点更好，使 M2-BERT-base 在 GLUE 上的得分达到 3.3 点更高。此外，FlashFFTConv 还在 Path-512 任务上实现了 96.1% 的准确率，而此前没有一个模型能在这个高分辨率视觉任务上取得比 50% 更好的成绩。同时，部分卷积使长序列模型处理最长的人类基因成为可能（2.3M个碱基对），而频率稀疏卷积在加速预训练模型的同时保持了或提高了模型质量。

https://www.aminer.cn/pub/655189e5939a5f4082a613e4/?f=cs

10.ADaPT: As-Needed Decomposition and Planning with Language Models

这篇论文介绍了ADaPT方法，用于解决复杂任务中的执行困难。该方法利用大型语言模型（LLMs）进行交互式决策任务，并动态地分解和规划复杂子任务，以适应环境和LLM的能力。ADaPT通过递归地分解子任务，以适应任务复杂性和LLM能力，从而解决了现有方法在任务复杂性方面的不足。实验结果表明，ADaPT在ALFWorld、WebShop和TextCraft等任务中的成功率显著高于现有基准方法，最高可达28.3%。通过深入分析，论文说明了多级分解的重要性，并证明了ADaPT能够动态地调整执行者LLM的能力和任务复杂性。

https://www.aminer.cn/pub/6551898c939a5f4082a5f245/?f=cs

11.Prompt Engineering a Prompt Engineer

这篇论文研究了优化大型语言模型（LLM）性能的重要任务——提示工程。作者提出了一个新的元提示框架，名为PE2，以更有效地指导LLM进行自动提示工程。该框架包括逐步推理模板和上下文指定等关键组件，以提高性能。此外，作者还受到常见的优化概念（如批量大小、步长和动量）的启发，将它们的口头表达形式引入元提示，并研究了它们的影响。在多项基准测试中，PE2的表现优于之前的自动提示工程基线，证明了其多功能性。此外，PE2还能对错误或不完整的提示进行有意义的编辑，并提出非平凡的反事实推理能力。

https://www.aminer.cn/pub/65518957939a5f4082a5dbca/?f=cs

12.FinGPT: Large Generative Models for a Small Language

这篇论文介绍了 FinGPT: Large Generative Models for a Small Language。大型语言模型（LLMs）在自然语言处理和许多其他任务中表现出色，但大多数开放模型对小型语言的支持非常有限，而 LLM 工作往往集中在有几乎无限数据用于预训练的语言上。在本文中，作者研究了创建芬兰语 LLM 的挑战，芬兰语是世界上使用人口不到 0.1% 的语言之一。作者汇集了一个包括网络爬取、新闻、社交媒体和电子书在内的芬兰语语料库。作者采用两种方法进行预训练模型：1）从头训练了七种单语模型（186M 到 13B 参数），称为 FinGPT；2）继续在原始训练数据和芬兰语的混合上对多语 BLOOM 模型进行预训练，得到了一个 1760 亿参数的模型，称为 BLUUMI。为了评估模型，作者引入了 FIN-bench，它是 BIG-bench 的芬兰语任务版本。作者还评估了其他模型质量，如毒性和偏见。作者的模型和工具可公开在 https://turkunlp.org/gpt3-finnish.

https://www.aminer.cn/pub/65518945939a5f4082a5d446/?f=cs

13.Language Models can be Logical Solvers

这篇论文探讨了语言模型在逻辑推理方面的应用。逻辑推理是人类智能的基本方面，是解决问题和决策制定的关键组成部分。最近的技术进步使得大型语言模型（LLMs）有可能展现出推理能力，但复杂的逻辑推理仍然是一个挑战。目前最先进的方法是使用LLMs将自然语言逻辑问题解析为符号表示，然后采用外部逻辑求解器来输入符号表示并输出答案。尽管这种方法在性能上令人印象深刻，但任何解析错误都可能导致外部逻辑求解器的执行失败，从而无法回答逻辑问题。

在本文中，作者介绍了一种名为LoGiPT的新语言模型，该模型直接模拟逻辑求解器的推理过程，通过学习严格遵守求解器语法和语义来避免解析错误。LoGiPT在一个新构建的指令调整数据集中进行微调，该数据集揭示了演绎求解器的隐含推理过程并进行了优化。实验结果表明，LoGiPT在两个公开的演绎推理数据集上优于现有的求解器增强的语言模型和少样本提示方法，即使在与ChatGPT或GPT-4等竞争性LLM竞争时也是如此。

https://www.aminer.cn/pub/65518a79939a5f4082a653a8/?f=cs

END

在这里插入图片描述

我们在AMiner网站首页添加了“每日精选新论文”专题，可以点击「订阅」和「加入知识库」，获取全部论文信息！

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实时追踪科研动态｜具备记忆增强多模态语言模型的开放世界多任务智能体-JARVIS-1，11.13精选新论文

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。AMiner AI，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：https://www.aminer.cn/chat/g/explain2023年11月13日精选新论文列表：1.Instant
复制链接

扫一扫