Big Model Weekly | 第23期

点击蓝字

1797b4e67a554da6cb2ad7dda0bab32b.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

6e9ae4b6a9ea89a326fbf8a568708f49.jpeg

1. Is the Pope Catholic? Yes, the Pope is Catholic. Generative Evaluation of Intent Resolution in LLMs

本文提出了一种新的方法来生成评估大型语言模型(LLMs)理解意图的方法,通过检查它们对非字面意义的话语的响应。理想情况下,LLMs应该根据非字面意义的话语的真实意图而不是其字面解释来作出回应。研究结果显示,LLMs在生成与非字面语言相关的回应时存在困难,平均准确率仅为50-55%。虽然明确提供神谕意图显著提高了性能(例如,Mistral-Instruct的75%),但这仍然表明在利用给定意图产生适当回应方面存在挑战。使用思维链条来让模型明确表达意图带来的收益要小得多(Mistral-Instruct的60%)。这些发现表明,LLMs尚不是有效的语用交流者,突显了建立模拟意图和利用它们进行语用生成的更好方法的必要性。

e864207c6a11bf956eb175d100c57d6f.png

4be18f022ab83fd38110fd6b8026430e.png

7e9d75b8280c50f9a8c022da0217ce1a.png

文章链接:

https://arxiv.org/pdf/2405.08760

2. LMD3: Language Model Data Density Dependence

本文开发了一种基于训练数据密度估计的分析语言模型任务性能的方法论,该方法可在个别示例级别进行分析。通过对微调数据进行释义作为受控干预的实验,发现增加训练分布中特定测试查询的支持会导致密度的可测增加,这也是干预引起的性能增加的重要预测因素。通过对预训练数据进行实验,可以用密度测量解释模型困惑度的显著部分差异。文章得出结论,该框架可以提供统计证据,证明目标模型的预测取决于其训练数据子集,并且更普遍地可用于表征给定测试任务的训练数据的支持(或缺乏支持)。

e2cdc95aad3799d977993a5c345c6554.png

416b847758404730f6ad71eeb955c182.png

ec74371591e2e26bb0612a395788733d.png

d384fc8f71efc8e1a05395e9d1a86e77.png

文章链接:

https://arxiv.org/pdf/2405.06331

3.Layer-Condensed KV Cache for Efficient Inference of Large Language Models

大型语言模型在实际应用中的高吞吐量部署一直是巨大内存消耗的主要瓶颈。除了大量的参数外,在变压器架构中用于注意力机制的键-值(KV)缓存也消耗了大量内存,特别是对于深度语言模型中的大量层数。本文提出了一种新颖的方法,只计算并缓存少量层的KVs,从而显著减少内存消耗并提高推断吞吐量。对大型语言模型进行的实验表明,该方法比标准的变压器模型实现了高达26倍的吞吐量,并在语言建模和下游任务中具有竞争性的性能。此外,该方法与现有的变压器节省内存技术是正交的,因此可以轻松地将它们与模型集成在一起,进一步提高推断效率。

db0848d1e4c0193805d692699ffb744f.png

400f8a701fa530596050b6cc550b7d46.png

d94d247d089fc02a399b9b7420dc8da4.png

08c5ef3bb700d9db471361d4eca46c64.png

2aa156fd0060105c3eb130d23489a5a8.png

81715c2a56ab188127d334ff3e637f55.png

9fdf2e0d28088d04378040728f61483f.png

文章链接:

https://arxiv.org/abs/2405.10637

4. From Sora What We Can See: A Survey of Text-to-Video Generation

随着令人瞩目的成就,人工智能正朝着人工通用智能的道路前进。由OpenAI开发的Sora,具有以分钟级别的世界模拟能力,可以被视为这一发展路径上的一个里程碑。然而,尽管取得了显著的成功,Sora仍然遇到了需要解决的各种障碍。在这项调查中,作者从解构Sora在文本到视频生成方面的视角出发,进行了文献的全面回顾,试图回答问题:“从Sora我们能看到什么”。具体来说,在介绍了一般算法的基本前提之后,本文从三个互相垂直的维度对文献进行了分类:进化生成器、优秀追求和真实全景。随后,作者详细组织了广泛使用的数据集和评估指标。最后但更重要的是,文章识别了该领域中的一些挑战和未解决的问题,并提出了未来研究和开发的潜在方向。

f9f703fab721d5c72db47ded32145a08.png

bdeac64123f3c9e535faf5e553eea617.png

d1df676afe7ecbd0d2cd44fc3662ae4a.png

3ac187d454596651eb59fcd0344c1ed0.png

903dc6619461aa12a7133f73c9e4f6e6.png

文章链接:

https://arxiv.org/pdf/2405.10674

5. Many-Shot In-Context Learning in Multimodal Foundation Models

大型语言模型被广泛认为在少样本上下文学习(ICL)方面非常有效。最近多模态基础模型的进展使得突破性地延长了上下文窗口,为探索它们在更多演示示例下执行ICL的能力提供了机会。这项工作评估了从少样本到多样本ICL的多模态基础模型的性能。文章在涵盖自然图像、医学图像、遥感和分子图像等多个领域(自然图像、医学图像、遥感和分子图像)以及任务(多类别、多标签和细粒度分类)的10个数据集上对GPT-4o和Gemini 1.5 Pro进行了基准测试。可以观察到,包括多达近2000个多模态演示示例的多样本ICL相比于少样本(<100个示例)ICL,在所有数据集上都导致了实质性的改进。此外,Gemini 1.5 Pro的性能在许多数据集上继续以对数线性方式提高,直至测试示例的最大数量。鉴于多样本ICL所需长提示的高推理成本,本文还探讨了在单个API调用中批处理多个查询的影响。实验发现,批量处理多达50个查询可以在零样本和多样本ICL下导致性能提升,在多个数据集的零样本设置中实现了实质性的收益,同时大幅降低了每个查询的成本和延迟。最后,文章衡量了模型的ICL数据效率,即模型从更多演示示例中学习的速度。可以发现,虽然GPT-4o和Gemini 1.5 Pro在各个数据集上的零样本性能相似,但在大多数数据集上,Gemini 1.5 Pro的ICL数据效率高于GPT-4o。结果表明,多样本ICL可以使用户有效地将多模态基础模型适应于新的应用和领域。

de811c02e9d15cb34c80aaf7fa2e6509.png

d79f34728d7bfae644df07a5fb8d6363.png

e29eb6eda552690f1a52f9461b1fb3cc.png

3884dae9664017f6858b69e0508b246c.png

25ffa025149779b24145ad7723a6b1cd.png

文章链接:

https://arxiv.org/pdf/2405.09798

6. TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction

在模拟中学习并将学到的策略转移到现实世界具有使机器人成为通用型的潜力。这种方法的关键挑战是解决模拟到现实(sim-to-real)之间的差距。以往的方法通常需要先验的领域特定知识。本文认为获得这种知识的一种简单方式是让人类观察和协助机器人在现实世界中执行策略。然后机器人可以从人类那里学习,以消除各种模拟到现实的差距。该研究提出了TRANSIC,这是一种基于人机协同的数据驱动方法,用于实现成功的模拟到现实转移。TRANSIC允许人类通过干预和在线校正来全面地增强模拟策略以克服各种未建模的模拟到现实的差距。通过从人类的校正中学习残差策略,并将其与模拟策略集成以进行自主执行。文章展示了所提出的方法可以在复杂且接触丰富的操作任务中实现成功的模拟到现实转移,例如家具组装。通过在模拟中学习的策略与从人类那里学习的策略的协同集成,TRANSIC作为一种全面解决各种常常共存的模拟到现实差距的方法是有效的。它具有随着人类努力而扩展的吸引人的特性。

400b3c60a67805bc5818b404d086dad4.png

34115d27fc4455789004c4589705dea3.png

6915c816414af90b8b12eae22abe7861.png

dd64b5366fe1f14eebbeec9ede19b6d6.png

8f36d2fd809e8ef8c6ce06de13659c93.png

0e3fd9e19ac38335fbc5b54da8bc6ad8.png

文章链接:

https://arxiv.org/pdf/2405.10315

本篇文章由陈研整理

往期精彩文章推荐

485b7f35619d838cdf65d23f72f47923.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

dbcacceea2bd4a0dfb3d6c47d5156605.png

我知道你

在看

欢迎讨论,期待你的

留言

53e18b3ff277b42994b64039cc3475b4.gif

点击 阅读原文 查看更多!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值