大型语言模型如何进行自我评估？揭秘基准测试的新方向！

AMiner：AI科研助手

于 2024-04-30 14:20:31 发布

阅读量1k

点赞数 7

文章标签：语言模型人工智能自然语言处理 LLM

本文链接：https://blog.csdn.net/AI_Conf/article/details/138317717

版权

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文，为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain?f=cs

1.Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

这篇论文探讨了大型语言模型（LLMs）基于偏好标签进行微调的不同方法。微调方法包括监督学习、基于策略的强化学习（RL）和对比学习。这些方法各有优劣和性能差异，现有实证研究得出了不同的结论。本文通过在教学和全规模LLM问题上对多种微调技术进行严格的分析，回答了这个问题。主要发现是，一般来说，使用基于策略抽样或尝试降低某些响应的概率（即使用“负梯度”）的方法优于离线和最大似然目标。我们将这些方法的见解概念化，并将使用基于策略抽样或负梯度的方法统一在一个类别分布的模式寻找目标之下。模式寻找目标能够相对于最大似然更快地改变类别分布的特定箱的概率质量，使它们能够更有效地将质量迁移到不同的箱中。我们的分析为LLMs的偏好微调提供了可行的见解，并指导了数据应该如何收集以实现最大改进。
在这里插入图片描述
链接：https://www.aminer.cn/pub/662715df13fb2c6cf65d9fc9/?f=cs

2.Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

论文全面调查了参数高效微调对于大型模型的重要性。大型模型在多个应用领域取得了划时代的进步，使得在不同任务中都能取得显著成就。然而，这些模型前所未有的大规模也带来了巨大的计算成本。这些模型通常包含数十亿个参数，其执行需要大量的计算资源。特别是，这种庞大的规模和计算需求，在定制它们用于特定的下游任务时，对于计算能力受限的硬件平台构成了相当大的挑战。
在这里插入图片描述
链接：https://www.aminer.cn/pub/65fceadd13fb2c6cf692790d/?f=cs

3.A Survey on the Memory Mechanism of Large Language Model based Agents

本文是一篇关于基于大型语言模型（LLM）的智能代理记忆机制的综述。近年来，这类智能代理引起了研究界和工业界的广泛关注。与原始的LLM相比，LLM-based agents的自我进化能力是其解决需要长期和复杂代理-环境交互的真实世界问题的基础。支持代理-环境交互的关键组成部分是代理的记忆。尽管之前的研究提出了许多有前景的记忆机制，但它们分散在不同的论文中，缺乏系统性的回顾，从整体角度总结和比较这些工作，未能提炼出共同且有效的设计模式，以启发未来的研究。为此，本文提出了关于LLM-based agents记忆机制的全面综述。具体来说，我们首先讨论了在LLM-based agents中“什么是”以及“为什么需要”记忆。然后，我们系统地回顾了之前的研究，关于如何设计和评估记忆模块。此外，我们还介绍了许多代理应用程序，其中记忆模块起着重要的作用。最后，我们分析了现有工作的局限性，并展示了重要的未来研究方向。
在这里插入图片描述
链接：https://www.aminer.cn/pub/662715d113fb2c6cf65d9126/?f=cs

4.LLM Evaluators Recognize and Favor Their Own Generations

这篇论文探讨了大型语言模型（LLM）在自我评估方面的应用，并指出这种自我评估在基准测试、奖励建模、宪法AI和自我优化等方法中具有价值。然而，由于评估者和被评估者是同一个LLM，因此引入了新的偏见。其中一种偏见是自我偏好，即LLM评估者给自己的输出打分高于其他人的输出，而人类评估者认为它们具有相同的质量。论文调查了自我识别能力是否有助于这种自我偏好。研究发现，未经调整的LLM（如GPT-4和Llama 2）能够以非 trivial 的准确度区分自己和其他LLM及人类。通过微调LLM，发现自我识别能力与自我偏好偏见的强度之间存在线性相关性；使用控制实验，我们表明因果解释抵抗直接的混淆因素。论文讨论了自我识别如何干扰无偏见评估和AI安全。
在这里插入图片描述
链接：https://www.aminer.cn/pub/662715c213fb2c6cf65d812b/?f=cs

5.FlowMind: Automatic Workflow Generation with LLMs

本文介绍了一种名为FlowMind的新方法，利用大型语言模型（如生成式预训练变换器（GPT））来解决自动化流程（RPA）在处理自发的或不可预测的任务时的局限性，从而创建一个自动工作流生成系统。在FlowMind中，我们提出了一种通用提示配方，用于使LLM的推理与可靠的API（应用程序编程接口）保持一致。通过这种方式，FlowMind不仅减轻了LLM常见的虚构问题，而且还消除了LLM与专有数据或代码的直接交互，从而确保信息的完整性和保密性，这在金融服务中至关重要。FlowMind进一步简化了用户交互，通过展示自动生成的 workflow 的高层次描述，使用户能够有效地检查和提供反馈。我们还引入了NCEN-QA，这是金融领域用于基准化从N-CEN报告的基金中提出的问题回答任务的新数据集。我们使用NCEN-QA来评估由FlowMind生成的workflow的性能，以及FlowMind的基线和消融变体。我们证明了FlowMind的成功，强调了所提出的讲座配方中每个组件的重要性，以及FlowMind中用户交互和反馈的有效性。
在这里插入图片描述
链接：https://www.aminer.cn/pub/65640482939a5f4082231b25/?f=cs