大模型周报丨Table-GPT、3D-GPT、AgentTuning等新工作重磅来袭

AMiner学术搜索和科技情报挖掘

于 2023-10-24 14:57:27 发布

阅读量351

点赞数 1

文章标签： 1024程序员节人工智能 gpt 大模型论文阅读微软

本文链接：https://blog.csdn.net/AI_Conf/article/details/134012508

版权

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文，为了方便大家阅读，只列出了论文标题、作者、AMiner AI综述等信息，如果感兴趣可扫码查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

1. AgentTuning: Enabling Generalized Agent Abilities for LLM

这篇论文介绍了 AgentTuning 方法，该方法可以增强大型语言模型 (LLM) 的代理能力，同时不影响其通用能力。在现实世界中的复杂任务中，LLM 作为中心控制器负责规划、记忆和工具利用，需要细粒度的提示方法以及健壮的 LLM 才能实现满意的性能。虽然已经提出了许多提示方法来完成特定的代理任务，但缺乏针对提高 LLM 本身代理能力的研究，而无需牺牲其通用能力。该研究提出了 AgentTuning 方法，这是一种简单且通用的方法，可以增强 LLM 的代理能力，同时保持其通用 LLM 能力。通过构建包含高质量交互轨迹的轻量级指令调整数据集 AgentInstruct，并采用混合指令调整策略将 AgentInstruct 与开源指令相结合，从而实现了对 Llama 2 系列模型的调整，得到了 AgentLM。实验结果表明，AgentTuning 可以在不影响通用能力的情况下增强 LLM 的代理能力。AgentLM-7B 在未见过的代理任务上与 GPT-3.5-turbo 相当，证明了其具有泛化的代理能力。该研究在 GitHub 上开源了 AgentInstruct 和 AgentLM-7B、13B 和 70B 模型，为代理任务提供了开放且强大的替代方案。

链接：
https://www.aminer.cn/pub/6531e2ca939a5f4082f5d5f7/?f=cs

2. CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules

这篇论文介绍了 CodeChain 框架，旨在通过一系列自我修订来引导大型语言模型 (LLM) 生成模块化的代码，从而解决更复杂和具有竞争力的编程任务。传统的 LLM 倾向于生成整体代码块，而没有将它们分解成逻辑子任务和子模块，而经验丰富的程序员会本能地编写模块化代码并用抽象来解决复杂任务，经常重用之前开发的模块。CodeChain 框架首先通过链式思维提示指导 LLM 生成模块化代码，然后通过一系列自我修订来迭代两个步骤：1) 提取和聚类生成的子模块，并选择簇代表作为更通用的可重用实现，2) 将原始链式思维提示与这些选择的模块实现一起增强，并指导 LLM 重新生成新的模块化解决方案。通过自然地鼓励 LLM 重用之前开发和验证的子模块，CodeChain 可以显著提高生成的解决方案的模块性和正确性，在 APPS 上实现了相对通过率@1 的 35% 的改进，在 CodeContests 上实现了 76% 的改进。该框架在 OpenAI LLM 和开源 LLM(如 WizardCoder) 上都有效，作者还进行了全面的消融研究，以提供有关 CodeChain 成功的基础。

链接：
https://www.aminer.cn/pub/652c9d07939a5f40825c0d1a/?f=cs

3. In-Context Pretraining: Language Modeling Beyond Document Boundaries

这篇论文介绍了"上下文预训练"（In-Context Pretraining）这一新方法，用于训练大型语言模型（LMs）。现有的预训练流程通过将随机短文档拼接在一起来创建输入上下文，但这些先前的文档无法为预测下一个文档提供信号。而"上下文预训练"则是将语言模型在相关文档序列上进行预训练，从而明确鼓励模型阅读和跨越文档边界进行推理。通过简单地改变文档排序，使每个上下文包含相关文档，并直接应用现有的预训练流程，我们可以实现"上下文预训练"。但是，文档排序问题具有挑战性，因为数据量达到数十亿，我们希望对每一份文档最大化上下文相似性而不重复任何数据。为了解决这个问题，我们引入了高效的近邻搜索和图遍历算法来寻找相关文档和构建一致的输入上下文。实验结果表明，"上下文预训练"能够简单且大规模地显著提高 LM 的性能，在需要更复杂上下文推理的任务中（包括上下文学习、阅读理解、对先前上下文的忠实度、长上下文推理和检索增强），都取得了明显的改进（+8%、+15%、+16%、+5%、+9%）。

链接：
https://www.aminer.cn/pub/652def0c939a5f4082b54103/?f=cs

4. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

这篇论文介绍了一种名为 Self-RAG 的新框架，通过自我反思来提高语言模型的质量和真实性。现有的大型语言模型 (LLMs) 通常由于仅依赖于它们参数化的知识而产生包含事实错误的响应。检索增强生成 (RAG) 是一种临时方法，通过检索相关知识来增强 LLMs，从而减少这种问题。然而，不论检索是否必要，不分检索到的段落是否相关，一概检索并包含固定数量的检索到的段落，会降低 LLM 的灵活性，或导致生成无帮助的响应。Self-RAG 框架通过检索和自我反思来增强 LLM 的质量和平事实性。该框架训练一个单一的任意 LLM，根据需要自适应地检索段落，并使用特殊标记（称为反思标记）生成和反思检索到的段落及其自身的生成。生成反思标记使得 LLM 在推理阶段可控，从而使其行为适应多样化的任务要求。实验结果表明，Self-RAG（7B 和 13B 参数）在多样化的任务上显著优于最先进的 LLMs 和检索增强模型。具体而言，Self-RAG 在开放领域问答、推理和事实验证任务上优于 ChatGPT 和检索增强的 Llama2-chat，并且相对于这些模型，它在提高长篇生成的准确性和引文准确性方面取得了显著的进步。

链接：
https://www.aminer.cn/pub/65309159939a5f4082843d1b/?f=cs

5. Towards Graph Foundation Models: A Survey and Beyond

这篇论文探讨了图基础模型（Graph Foundation Models, GFMs）的发展趋势。基础模型作为人工智能应用的基本构建块，已经在自然语言处理等多个领域取得了显著的成功。与此同时，图机器学习也经历了革命性的转变，浅层方法逐渐被深度学习方法所取代。基础模型的出现和同质化能力引起了图机器学习研究者的兴趣，激发了关于开发基于广泛图数据预训练且能适应广泛下游图任务的下一个图学习范式的讨论。然而，目前还没有关于这类工作的明确定义和系统分析。在这篇文章中，作者提出了图基础模型的概念，并首次全面阐述了它们的关键特性和技术。随后，作者将现有关于 GFMs 的研究分为三类，根据它们对图神经网络和大型语言模型的依赖性进行分类。除了对图基础模型的当前研究进行全面概述外，本文还讨论了该领域未来可能的研究方向。

链接：
https://www.aminer.cn/pub/65309159939a5f4082843e5f/?f=cs

6. MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models

这篇论文介绍了一种名为 MusicAgent 的 AI 代理，用于音乐理解和生成。它涵盖了许多音乐处理任务，如生成任务（例如音色合成）和理解任务（例如音乐分类）。由于音乐数据表示和模型适用性在各种任务之间存在巨大差异，因此对于开发人员和爱好者来说，掌握所有这些任务以满足他们在音乐处理中的需求非常困难。因此，有必要建立一个系统来组织和整合这些任务，从而帮助实践者自动分析他们的需求并调用合适的工具作为解决方案来满足他们的要求。受到大型语言模型（LLMs）在任务自动化方面取得最新成功的影响，我们开发了一个名为 MusicAgent 的系统，该系统整合了许多音乐相关工具和自主工作流以解决用户需求。具体来说，我们建立了 1）工具集，从各种来源收集工具，包括 Hugging Face、GitHub 和 Web API 等。2）一个由 LLM（例如 ChatGPT）赋能的自主工作流，以组织这些工具并自动将用户请求分解为多个子任务并调用相应的音乐工具。该系统的主要目标是让用户摆脱 AI-音乐工具的复杂性，让他们专注于创意方面。通过赋予用户轻松组合工具的自由，该系统提供了无缝且丰富的音乐体验。

链接：
https://www.aminer.cn/pub/65309159939a5f4082843ede/?f=cs

7. 3D-GPT: Procedural 3D Modeling with Large Language Models

这篇论文介绍了一种名为 3D-GPT 的框架，用于使用大型语言模型进行基于指令的 3D 建模。该框架利用大型语言模型（LLMs）作为高效的问题解决者，将程序化的 3D 建模任务分解为可访问的片段，并为每个任务分配适当的代理。3D-GPT 集成了三个核心代理：任务调度代理、概念化代理和建模代理。它们共同实现了两个目标：首先，它增强了简洁的初始场景描述，将它们发展为详细形式，并根据后续指令动态适应文本；其次，它集成了程序化生成，从丰富的文本中提取参数值，以便轻松地与 3D 软件进行资产创建接口。实验证明，3D-GPT 不仅可以解释和执行指令，提供可靠的结果，而且还可以有效地与设计师协作。此外，它还可以与 Blender 无缝集成，解锁更广泛的操作可能性。这项工作突显了 LLMs 在 3D 建模中的潜力，为场景生成和动画的未来发展提供了基本框架。

链接：
https://www.aminer.cn/pub/6531e2ca939a5f4082f5d67a/?f=cs

8. BitNet: Scaling 1-bit Transformers for Large Language Models

这篇论文介绍了 BitNet，一种可扩展且稳定的 1 位 Transformer 架构，专为大型语言模型设计。为了解决大型语言模型在部署方面面临的挑战以及高能耗带来的环境影响问题，作者引入了 BitNet。具体来说，作者引入了 BitLinear 作为 nn.Linear 层的替换，以便从零开始训练 1 位权重。在语言建模的实验结果表明，BitNet 在保持竞争力性能的同时，大大减少了内存占用和能源消耗，相较于最先进的 8 位量化方法和 FP16 Transformer 基线。此外，BitNet 呈现出与全精度 Transformer 类似的扩展规律，表明其在保持效率和性能优势的同时，有望有效地扩展到更大的语言模型。

链接：
https://www.aminer.cn/pub/652f3ff0939a5f4082e74d9f/?f=cs

9. Llemma: An Open Language Model For Mathematics

这篇论文介绍了一个名为 Llemma 的大型数学语言模型。该模型在 Proof-Pile-2 数据集上对 Code Llama 进行预训练，该数据集包括科学论文、包含数学的网页数据和数学代码。在 MATH 基准测试中，Llemma 在等参数基础上优于所有已知的开放基础模型，以及尚未发布的 Minerva 模型套件。此外，Llemma 无需进一步微调即可实现工具使用和正式定理证明。作者公开发布了所有相关资料，包括 70 亿和 340 亿参数模型、Proof-Pile-2 数据集以及复制实验的代码。

链接：
https://www.aminer.cn/pub/652def02939a5f4082b53043/?f=cs

10. Table-GPT: Table-tuned GPT for Diverse Table Tasks

这篇论文介绍了 Table-GPT：一种用于多样化表格任务的表格调整 GPT。语言模型 GPT-3.5 和 ChatGPT 展示了出色的能力，可以遵循各种人类指令并执行广泛的任务。然而，当用一系列基本的表格理解任务探测这些语言模型时，我们发现今天的语言模型在许多表格相关任务上仍然不够理想，这可能是由于它们主要是在一维自然语言文本上进行预训练的，而关系表格是二维对象。在本文中，作者提出了一个新的表格调整范式，继续使用来自真实表格的多样化表格任务合成训练数据，以提高语言模型理解表格和执行表格任务的能力。作者展示了他们的 Table-GPT 模型在广泛的表格任务中表现出更好的表格理解能力，包括超出训练任务范围的未见任务，并且具有强大的泛化能力，能够以类似于 GPT-3.5 和 ChatGPT 的方式响应各种人类指令来执行新的表格任务。

链接：
https://www.aminer.cn/pub/652c9d07939a5f40825c0e29/?f=cs

如何使用AMiner AI？

使用AMiner AI的方法很简单，打开AMiner首页，从页面顶部导航栏或者右下角便可进入ChatPaper页面。

在AMiner AI页面中，可以选择基于单篇文献进行对话和基于全库（个人文献库）对话，可选择上传本地PDF或者直接在AMiner上检索文献。

AMiner AI使用教程：点此查看

AMiner AI入口：「链接」

AMiner学术搜索和科技情报挖掘

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大模型周报丨Table-GPT、3D-GPT、AgentTuning等新工作重磅来袭

作者展示了他们的 Table-GPT 模型在广泛的表格任务中表现出更好的表格理解能力，包括超出训练任务范围的未见任务，并且具有强大的泛化能力，能够以类似于 GPT-3.5 和 ChatGPT 的方式响应各种人类指令来执行新的表格任务。然而，目前还没有关于这类工作的明确定义和系统分析。2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
复制链接

扫一扫