MIRAI基准测试：评估LLM在国际事件预测中的能力

AMiner学术搜索和科技情报挖掘

于 2024-07-10 11:00:00 发布

阅读量288

点赞数 16

文章标签：人工智能语言模型 LLM 自然语言处理

本文链接：https://blog.csdn.net/AI_Conf/article/details/140216265

版权

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
本周精选了5篇LLM领域的优秀论文，为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain?f=cs

1.A Review of Large Language Models and Autonomous Agents in Chemistry

本文回顾了大型语言模型（LLM）在化学领域的应用，这些模型正在成为化学领域强大的工具，能够在多个领域内准确预测化学物质的性质、设计新分子、优化合成路径，并加速药物和材料发现。目前的核心思路是将LLM与化学专用工具如合成规划器和数据库结合，形成所谓的“智能代理”。本文详细讨论了LLM的发展历程、当前能力、设计，以及化学领域特有的挑战和未来发展方向。特别关注智能代理的产生，它们已经在化学的多个领域证明了自己的有效性，但挑战依然存在。目前尚不清楚是创建领域特定的代理还是通用代理，以及开发自主管道还是“协同飞行员”系统，哪种方式能加速化学发展。目前的一个新兴方向是采用人机协作的多代理系统。由于这一领域的快速发展，建立了一个存储库以跟踪最新的研究进展。
在这里插入图片描述
链接：https://www.aminer.cn/pub/6684b06d01d2a3fbfce33d15/?f=cs

2.MIRAI: Evaluating LLM Agents for Event Forecasting

本文介绍了一种新型基准测试工具MIRAI，旨在系统评估大型语言模型（LLM）代理在预测国际事件方面的能力和可靠性。尽管目前使用LLM代理预测国际事件的热情日益高涨，但缺乏对其预测能力和可靠性的严格评估。MIRAI通过构建一个具有访问大量历史结构化事件和文本新闻文章的工具的智能体环境，来解决这一问题。该基准测试工具对GDELT事件数据库进行了精细清理和解析，制定了一系列具有不同预测期限的关系预测任务，评估了LLM代理从短期到长期预测的能力。此外，MIRAI通过实施API，使LLM代理能够通过基于代码的界面使用不同的工具。总的来说，MIRAI从三个维度全面评估代理的能力：1）自主从大型全球数据库中获取和整合关键信息；2）使用领域特定的API和库编写代码以使用工具；3）联合推理来自不同格式和时间的历史知识，以准确预测未来事件。通过全面的基准测试，本文旨在建立一个可靠的评估框架，以评估LLM代理在国际事件预测方面的能力，从而为国际关系分析的发展提供更准确、更可靠的模型。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66835f4601d2a3fbfc718070/?f=cs

3.Evaluating Human Alignment and Model Faithfulness of LLM Rationale

本文研究了大语言模型（LLM）用理性说明其生成的能力——从输入文本中提取的一组令牌，反映了LLM的决策过程。作者检查了两种方法提取的LLM理性说明：1）基于归因的方法，使用注意力或梯度来定位重要令牌，以及2）提示 based methods that guide LLMs to extract rationales using prompts. 通过大量实验，我们发现提示 based rationales 与人类注释的理性说明更好地对齐，即使模型性能不佳，也能与人类保持合理的对齐。我们另外发现，先前工作中识别出的提示 based 方法的忠实度局限性可能与其坍塌的预测有关。通过在相应数据集上微调这些模型，发现基于提示和归因的方法都显示出提高了忠实度。本研究为对LLM理性说明进行更严谨、公平的评价提供了线索，尤其是对于基于提示的方法。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66835f3401d2a3fbfc715e99/?f=cs

4.LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives

这篇论文探讨了合成数据广泛应用带来的问题，特别是合成数据生成的模型如何通过精炼的数据影响其他大型语言模型（LLM）。文章全面研究了合成数据集成对模型属性被动继承的影响，系统地刻画了合成数据源如何塑造模型的内部偏见、校准以及生成文本的属性偏好。研究发现，即使在合成数据提示看似“中性”的情况下，模型对某些属性也出奇地敏感。基于这些发现，文章提出一个重要问题：是否可以利用这种敏感性达到良好效果？文章进一步探讨了是否可以通过利用数据生成过程，明确地引导模型在测试时朝向我们所希望的属性。以往这被认为是不可行的，因为收集具有特定特征或目标的数据成本很高。然而，随着合成数据质量的提高以及向遵循多种指令的通用模型的转变，这个问题变得适时可行。文章提出了“主动继承”这一术语，以描述故意限制合成数据以达到非不同的目标。文章还展示了如何通过主动继承引导模型生成配置朝向期望的非不同的属性，例如高词汇多样性或低毒性。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66836fa201d2a3fbfcb1fd1f/?f=cs

5.AI Agents That Matter

本文研究了AI代理的新研究方向，指出了现有代理基准和评估实践中的不足之处。首先，现有评估过于关注准确度而忽视了其他指标，导致最先进的代理过于复杂和昂贵，并且社区对准确度提升的来源产生了误解。文章提出了在保持准确度的同时优化成本的新目标，并设计实现了一种优化方法，证明了其在不降低准确度的前提下大幅降低成本的潜力。其次，文章指出模型和下游开发者对基准的需求被混淆，难以确定哪种代理最适合特定应用。第三，许多代理基准的保留集不充分，有时甚至没有保留集，导致代理因为采取了捷径和各种方式对基准过拟合而变得脆弱。文章提出了一种避免过拟合的原则性框架。最后，评估实践缺乏标准化，导致普遍缺乏可重复性。文章希望提出的解决这些不足的步骤能够促进实际应用中有用的代理的发展，而不仅仅是基准上的准确代理。
在这里插入图片描述
链接：https://www.aminer.cn/pub/66836fa401d2a3fbfcb20638/?f=cs

AMiner AI入口：
https://www.aminer.cn/chat/g/explain?f=cs

AMiner学术搜索和科技情报挖掘

关注

16
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
MIRAI基准测试：评估LLM在国际事件预测中的能力

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。
复制链接

扫一扫