Big Model Weekly | 第19期

AITIME论道

于 2024-04-27 09:50:58 发布

阅读量648

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247524058&idx=1&sn=f605f36ef86cc46cab3444071adf1315&chksm=e8a81453d5de648deb378a4492bedc6cd47d6f8cb3855badc0fdd268de4b43c008f75367f072&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

1.MMInA: Benchmarking Multihop Multimodal Internet Agents

该研究提出了 MMInA，一个多跳和多模式基准，用于评估具有网站体现的自主代理在完成复杂用户任务时的性能。现有的基准测试未能在现实且不断发展的环境中评估它们，以适应跨网站的体现任务。为了回答这个问题，该研究提出了 MMInA，这是一个多跳和多模式基准，用于评估具有组合性互联网任务的体现代理，具有几个吸引人的特性：1）不断发展的真实世界多模式网站。该基准独特地在不断发展的真实世界网站上运行，确保了高度的现实感和适用性于自然用户任务。该数据包括 1,050 个人工编写的任务，涵盖购物和旅行等各种领域，每个任务需要代理从网页中自主提取多模式信息作为观察结果；2）多跳网页浏览。

该数据集包含自然组合的任务，需要从多个网站获取信息或执行动作来解决，以评估网络任务的长距离推理能力；3）全面评估。该研究提出了一种评估代理完成多跳任务进度的新协议。该研究对独立（多模式）语言模型和基于启发式的网络代理进行了实验。大量实验证明，虽然长链多跳网页任务对人类来说很容易，但对于最先进的网络代理来说仍然具有挑战性。

该研究发现，在解决更多跳的任务时，代理更有可能在早期跳跃上失败，这导致任务成功率降低。为了解决这个问题，该研究提出了一种简单的记忆增强方法，重播过去的行动轨迹以反映。该方法显著提高了代理的单跳和多跳网页浏览能力。

文章链接：

https://arxiv.org/pdf/2404.09992.pdf

2.What are human values, and how do we align AI to them?

有一个新兴的共识认为需要将 AI 系统与人类价值观对齐（Gabriel, 2020; Ji et al., 2024），但如何在实践中将这一点应用于语言模型仍然不清楚。该研究将“对齐人类价值观”的问题分为三个部分：首先，从人们那里引出价值观；其次，将这些价值观调和为用于训练机器学习模型的对齐目标；第三，实际训练模型。在这篇论文中，该研究专注于前两个部分，并提出了一个问题：如何“良好”地将多样化的人类价值观输入合成为用于对齐语言模型的目标？

为了回答这个问题，该研究首先定义了一组 6 个标准，认为对于一个对齐目标来说必须满足，以便根据人类价值观来塑造模型行为。然后，该研究提出了一个被称为“道德图引出”（MGE）的引出和调和价值观的过程，该过程使用大型语言模型对参与者在特定背景下的价值观进行访谈；该方法受到了 Taylor (1977)、Chang (2004)等人提出的价值观哲学的启发。该研究在500 名美国人的代表性样本上试用了 MGE，针对 3 个故意具有分裂性的提示（例如，关于堕胎的建议）。研究结果表明，MGE 在所有 6 个标准上都有助于提高模型的对齐性。例如，几乎所有参与者（89.1%）都觉得这个过程很好地代表了他们，而（89%）认为最终的道德图是公平的，即使他们的价值观没有被投票为最明智的。该过程经常导致“专家”价值观（例如，从寻求堕胎建议的妇女那里获得的价值观）上升到道德图的顶部，而不是预先定义谁被认为是专家。

文章链接：

https://arxiv.org/pdf/2404.10636.pdf

3.TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

最近在长内容生成方面，大型语言模型（LLMs）的广泛部署引发了对高效长序列推理支持的增加需求。然而，为了避免重新计算而存储的键-值（KV）缓存，由于与序列长度呈线性增长，已经成为一个关键瓶颈。由于 LLMs 的自回归性质，每生成一个标记都会加载整个KV 缓存，导致计算核心利用率低，延迟高。尽管提出了各种 KV 缓存的压缩方法来缓解这个问题，但它们往往会导致生成质量下降。TriForce 是一个可扩展到长序列生成的分层推理解码系统。该方法通过检索作为草案模型利用原始模型权重和动态稀疏 KV 缓存，该模型充当层次结构中的中间层，并由较小的模型进一步推测，以减少其起草延迟。TriForce 不仅为Llama2-7B-128K 实现了令人印象深刻的加速，A100 GPU 上可达到 2.31 倍，而且在处理更长上下文方面也展示了可扩展性。对于在两个 RTX 4090 GPU 上进行的卸载设置，TriForce实现了 0.108s/token，仅比 A100 上的自回归基线慢一半，在优化的卸载系统上达到了 7.78倍。此外，TriForce 在单个 RTX 4090 GPU 上的性能比 DeepSpeed-Zero-Inference 提高了 4.86倍。TriForce 的稳健性表现在其在各种温度下始终出色的性能。

文章链接：

https://arxiv.org/pdf/2404.11912.pdf

4.Language Models Still Struggle to Zero-shot Reason about Time Series

时间序列对金融和医疗等领域的决策至关重要。它们的重要性驱动了最近一系列将时间序列传递到语言模型中的工作，导致在某些数据集上进行了非平凡的预测。但目前尚不清楚非平凡的预测是否意味着语言模型能够推理时间序列。为了填补这一空白，本文创建了一个全新的时间序列推理评估框架，包括正式任务和相应的跨十个领域的多尺度时间序列与文本标题配对的数据集。利用这些数据，作者探究语言模型是否能够实现三种形式的推理：（1）因果推理——给定一个输入时间序列，语言模型能否确定最有可能创建它的情景？（2）问题回答——语言模型是否能够回答关于时间序列的事实性问题？（3）上下文辅助预测——高度相关的文本上下文是否能够改善语言模型的时间序列预测？本文发现，除此之外，具有高度能力的语言模型在时间序列推理方面表现出令人惊讶的有限：它们在因果推理和问题回答任务上得分略高于随机（比人类差了多达30个百分点），并且在利用上下文改善预测方面显示出适度的成功。这些弱点表明，时间序列推理是一项具有影响力但深度不足的语言模型研究方向。

文章链接：

https://arxiv.org/pdf/2404.11757.pdf

5.Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

尽管大型语言模型（LLMs）在各种任务上具有令人印象深刻的能力，但它们仍然在涉及复杂推理和规划的场景中遇到困难。最近的工作提出了先进的提示技术和使用高质量数据进行微调以增强LLMs的推理能力的必要性。然而，这些方法在本质上受到数据可用性和质量的限制。鉴于此，自我修正和自我学习成为可行的解决方案，采用允许LLMs改进其输出并从自评奖励中学习的策略。然而，LLMs在自我改进其响应方面的功效，特别是在复杂推理和规划任务中，仍然存在疑虑。本文介绍了用于LLMs自我改进的ALPHALLM，它将蒙特卡洛树搜索（MCTS）与LLMs集成，建立了一个自我改进的循环，从而增强了LLMs的能力而无需额外的注释。借鉴AlphaGo的成功，ALPHALLM解决了将MCTS与LLM相结合进行自我改进的独特挑战，包括数据稀缺性、语言任务搜索空间的广度以及语言任务中反馈的主观性质。ALPHALLM由提示合成组件、为语言任务量身定制的高效MCTS方法以及三个评论模型组成，用于提供精确的反馈。在数学推理任务中的实验结果表明，ALPHALLM显著提升了LLMs的性能，而无需额外的注释，展示了LLMs自我改进的潜力。

文章链接：

https://arxiv.org/pdf/2404.12253.pdf

6.ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming

在构建大型语言模型（LLMs）时，牢记安全至关重要，并通过设置防护措施来保护它们。确实，LLMs不应生成促进或规范有害、非法或不道德行为的内容，这可能会对个人或社会造成伤害。这一原则适用于正常和对抗性使用。为此，本文介绍了ALERT，一个基于新颖的细粒度风险分类体系的大规模评估安全性的基准。它旨在通过红队测试方法评估LLMs的安全性，包含超过45,000条指令，根据新颖分类体系进行分类。通过将LLMs置于对抗测试场景中，ALERT旨在识别漏洞、提供改进建议，并提高语言模型的整体安全性。此外，细粒度分类体系使研究人员能够进行深入评估，也有助于评估与各种政策的一致性。在实验中，本文广泛评估了10个流行的开源和闭源LLMs，并展示了其中许多仍然难以达到合理的安全水平。

文章链接：

https://arxiv.org/pdf/2404.08676.pdf

7.How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs' internal prior

检索增强生成（RAG）经常被用来修正幻觉并为大型语言模型（LLMs）提供最新的知识。然而，在LLM单独错误回答问题的情况下，提供正确的检索内容是否总是能够纠正错误？相反，在检索内容错误的情况下，LLM是否知道忽略错误信息，还是会重复错误？为了回答这些问题，本文系统地分析了LLM的内部知识（即其先验）与检索信息在它们产生分歧的情况下之间的博弈。作者在有参考文档和无参考文档的数据集上测试了GPT-4和其他LLMs的问答能力。如预期的那样，提供正确的检索信息修复了大多数模型的错误（94%的准确率）。然而，当参考文档被扰动并带有不断增加的错误值时，当LLM的内部先验较弱时，它更有可能重复错误的、修改后的信息，但当其先验较强时，它更具抵抗力。同样，本文还发现，修改后的信息与模型的先验知识偏离得越远，模型就越不可能偏好该信息。这些结果突显了模型的先验知识与参考文档中提供的信息之间的潜在张力。

文章链接：

https://arxiv.org/pdf/2404.10198.pdf

本期文章由陈研整理

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1700多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

哦

欢迎讨论，期待你的

留言

哦

点击 阅读原文 查看更多！

AITIME论道

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Big Model Weekly | 第19期

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！1.MMInA: Benchmarking Multihop Multimodal Internet Agents该研究提出了 MMInA，一个多跳和多模式基准，用于评估具有网站体现的自主代理在完成复杂用户任务时的性能。现有的基准测试未能在现实且不断发展的环境中评估它们，以适应跨网站的体现任务。为了回答这个问题，该研究提出了 MMInA，这...
复制链接

扫一扫