LLM论文周报｜来自清华、复旦、谷歌等机构前沿论文研究

AMiner学术搜索和科技情报挖掘

于 2023-08-14 11:25:18 发布

阅读量319

点赞数

文章标签：人工智能语言模型大模型 llm 深度学习考研

本文链接：https://blog.csdn.net/AI_Conf/article/details/132272105

版权

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。

本周精选了9篇LLM领域的优秀论文，来自清华、复旦、谷歌等机构。

为了方便大家阅读，只列出了论文标题、作者、ChatPaper综述等信息，如果感兴趣可点击链接查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

1.AgentBench: Evaluating LLMs as Agents 论文详情页

https://www.aminer.cn/pub/64d1bdf93fda6d7f06ec4af3

随着LLMs在超出传统自然语言处理任务的现实世界实用任务中变得越来越智能和自主，迫切需要在交互环境中评估LLMs作为代理人在具有挑战性的任务中的推理和决策能力。该研究发现，在多轮开放式生成设置中，商业LLMs在复杂环境中充当代理人的能力强大，但它们与开源竞争对手之间的性能存在显著差异。这个问题也是一个正在进行中的项目的组成部分，该项目具有更广泛的覆盖范围，并对系统化的LLM评估进行了更深入的考虑。

2.All in One: Multi-task Prompting for Graph Neural Networks 论文详情页

https://www.aminer.cn/pub/64a63bbad68f896efaec478f

论文说明了在图神经网络中存在的一个问题：由于具有节点级、边级和图级的图任务具有很大的差异性，因此预训练的假设与这些多个任务通常不兼容。这个差距甚至可能导致对特定应用的"负转移"，从而导致结果不佳。因此，作者提出了一个多任务提示方法来解决这个问题。

3.Simple synthetic data reduces sycophancy in large language models 论文详情页

https://www.aminer.cn/pub/64d30f2d3fda6d7f06f6c343

论文探讨了大型语言模型中无条件迎合用户观点的不良行为——阿谀奉承，并提出了一种简单的合成数据干预方法来减少这种行为。研究发现，模型的规模和指令调整都会显著增加PaLM模型（参数规模达到540B）的阿谀奉承行为。此外，研究还将阿谀奉承评估扩展到明显错误的加法陈述，发现即使知道这些陈述是错误的，语言模型仍然会同意它们，只要用户也同意。为了减少阿谀奉承行为，论文提出了一种简单的合成数据干预方法，该方法利用公开的NLP任务鼓励模型对用户在这些任务上的观点保持稳健。在轻量级微调步骤中添加这些数据可以显著减少对待验证提示的阿谀奉承行为。

4.From Sparse to Soft Mixtures of Experts 论文详情页

https://www.aminer.cn/pub/64cb267b3fda6d7f06ab6af4

作者提出了一种名为Soft MoE的解决方案，它是一种全可微的稀疏Transformer，旨在解决这些挑战，并同时保持MoEs的优点。Soft MoE通过将所有输入令牌的不同加权组合传递给每个专家来实现隐式软分配。与其他MoE方法类似，Soft MoE中的专家只处理部分（结合的）令牌，从而在更低的推理成本下实现更大的模型容量。在视觉识别的背景下，Soft MoE在性能上远远优于标准Transformer（ViTs）和流行的MoE变种（Tokens Choice和Experts Choice）。

5.Cumulative Reasoning With Large Language Models 论文详情页

https://www.aminer.cn/pub/64d30f353fda6d7f06f6cb27

提出了一种新的方法——累积推理（Cumulative Reasoning，CR），通过在语言模型中以累积和迭代的方式模拟人类思维过程，将任务分解为较小的组成部分，使问题解决过程更加可管理和有效。在对逻辑推理任务的处理中，CR方法始终优于现有方法，提高了最高达9.3％，并在经过筛选的FOLIO wiki数据集上达到了惊人的98.04％的准确率。在24点游戏中，CR方法实现了94％的准确率，相比之前的最先进方法提高了20％。

6.TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents 论文详情页

https://www.aminer.cn/pub/64d1bde83fda6d7f06ec3db6

虽然大型语言模型在自然语言处理方面有很强的能力，但在处理需要结合任务规划和使用外部工具的复杂任务时，其内在的生成能力可能不足够。因此，该论文提出了一个专为基于大型语言模型的人工智能代理设计的结构化框架，并讨论了解决复杂问题所需的关键能力。在这个框架中，设计了两种不同类型的代理（即一步代理和顺序代理）来执行推理过程。随后，使用各种大型语言模型实例化了该框架，并评估了它们在典型任务上的任务规划和工具使用能力。通过突出关键发现和挑战，该研究旨在为研究人员和实践者在他们的人工智能应用中利用大型语言模型的能力提供有用的资源。该研究强调了这些模型的巨大潜力，同时也确定了需要进一步研究和改进的领域。

7.Towards Understanding the Capability of Large Language Models on Code Clone Detection: A Survey 论文详情页

https://www.aminer.cn/pub/64cb267b3fda6d7f06ab6c51

论文提到了几个问题：1. 代码克隆是软件开发中的常见问题，而自动代码克隆检测对于软件开发至关重要。2. 大型语言模型（LLMs）在代码克隆检测方面的性能尚不清楚，需要进行更多的研究以进行准确的评估。3. 高级LLMs在检测复杂语义克隆方面表现出色，优于现有方法。4. 通过思维链提示添加中间推理步骤可以显着增强性能。5. 使用向量嵌入表示代码，尤其是使用文本编码器，可以有效地帮助克隆检测。6. LLMs对于不同的编程语言在检测代码克隆方面的能力存在差异。7. 研究表明，LLMs在克隆检测方面具有潜力，由于其语言能力，为开发健壮的基于LLM的方法以增强软件工程提供了启示。

8.Why Do We Need Neuro-symbolic AI to Model Pragmatic Analogies? 论文详情页

https://www.aminer.cn/pub/64d074bf3fda6d7f06ce91b6

在处理复杂的类比推理时，大型语言模型（LLM）存在的限制。随着类比的复杂性增加，需要超出文本内容的广泛、多样化的知识，而这些知识很可能在LLM所使用的词汇共现统计中无法找到。为了解决这个问题，作者讨论了使用神经符号AI技术的必要性。神经符号AI技术将统计AI和符号AI结合起来，通过为无结构文本提供强调和增强相关内容的表示形式，提供抽象并指导映射过程。这种基于知识的方法可以保持LLM的效率，同时能够解释类比，适用于教育应用。

9.Separate Anything You Describe 论文详情页

https://www.aminer.cn/pub/64d465973fda6d7f0689148f

介绍了一个名为LASS的语言查询音频源分离方法，并指出目前的研究在特定源（如乐器，有限类别的音频事件）上表现出有希望的分离性能，但无法在开放领域内分离音频概念。因此，作者提出了一个名为AudioSep的基于自然语言查询的开放领域音频源分离模型，并对其在音频事件分离、乐器分离和语音增强等任务上进行了广泛评估。实验结果表明，AudioSep表现出强大的分离性能和令人印象深刻的零样本泛化能力，使用音频标题或文本标签作为查询时，明显优于先前的音频查询和语言查询分离模型。

如何使用ChatPaper？

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper是一款集检索、阅读、知识问答于一体的对话式私有知识库，AMiner希望通过技术的力量，让大家更加高效地获取知识。

ChatPaper使用教程：点此查看

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
LLM论文周报｜来自清华、复旦、谷歌等机构前沿论文研究

提出了一种新的方法——累积推理（Cumulative Reasoning，CR），通过在语言模型中以累积和迭代的方式模拟人类思维过程，将任务分解为较小的组成部分，使问题解决过程更加可管理和有效。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
复制链接

扫一扫