点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
1. Is the Pope Catholic? Yes, the Pope is Catholic. Generative Evaluation of Intent Resolution in LLMs
本文提出了一种新的方法来生成评估大型语言模型(LLMs)理解意图的方法,通过检查它们对非字面意义的话语的响应。理想情况下,LLMs应该根据非字面意义的话语的真实意图而不是其字面解释来作出回应。研究结果显示,LLMs在生成与非字面语言相关的回应时存在困难,平均准确率仅为50-55%。虽然明确提供神谕意图显著提高了性能(例如,Mistral-Instruct的75%),但这仍然表明在利用给定意图产生适当回应方面存在挑战。使用思维链条来让模型明确表达意图带来的收益要小得多(Mistral-Instruct的60%)。这些发现表明,LLMs尚不是有效的语用交流者,突显了建立模拟意图和利用它们进行语用生成的更好方法的必要性。
文章链接:
https://arxiv.org/pdf/2405.08760
2. LMD3: Language Model Data Density Dependence
本文开发了一种基于训练数据密度估计的分析语言模型任务性能的方法论,该方法可在个别示例级别进行分析。通过对微调数据进行释义作为受控干预的实验,发现增加训练分布中特定测试查询的支持会导致密度的可测增加,这也是干预引起的性能增加的重要预测因素。通过对预训练数据进行实验,可以用密度测量解释模型困惑度的显著部分差异。文章得出结论,该框架可以提供统计证据,证明目标模型的预测取决于其训练数据子集,并且更普遍地可用于表征给定测试任务的训练数据的支持(或缺乏支持)。
文章链接:
https://arxiv.org/pdf/2405.06331
3.Layer-Condensed KV Cache for Efficient Inference of Large Language Models
大型语言模型在实际应用中的高吞吐量部署一直是巨大内存消耗的主要瓶颈。除了大量的参数外,在变压器架构中用于注意力机制的键-值(KV)缓存也消耗了大量内存,特别是对于深度语言模型中的大量层数。本文提出了一种新颖的方法,只计算并缓存少量层的KVs,从而显著减少内存消耗并提高推断吞吐量。对大型语言模型进行的实验表明,该方法比标准的变压器模型实现了高达26倍的吞吐量,并在语言建模和下游任务中具有竞争性的性能。此外,该方法与现有的变压器节省内存技术是正交的,因此可以轻松地将它们与模型集成在一起,进一步提高推断效率。
文章链接:
https://arxiv.org/abs/2405.10637
4. From Sora What We Can See: A Survey of Text-to-Video Generation
随着令人瞩目的成就,人工智能正朝着人工通用智能的道路前进。由OpenAI开发的Sora,具有以分钟级别的世界模拟能力,可以被视为这一发展路径上的一个里程碑。然而,尽管取得了显著的成功,Sora仍然遇到了需要解决的各种障碍。在这项调查中,作者从解构Sora在文本到视频生成方面的视角出发,进行了文献的全面回顾,试图回答问题:“从Sora我们能看到什么”。具体来说,在介绍了一般算法的基本前提之后,本文从三个互相垂直的维度对文献进行了分类:进化生成器、优秀追求和真实全景。随后,作者详细组织了广泛使用的数据集和评估指标。最后但更重要的是,文章识别了该领域中的一些挑战和未解决的问题,并提出了未来研究和开发的潜在方向。
文章链接:
https://arxiv.org/pdf/2405.10674
5. Many-Shot In-Context Learning in Multimodal Foundation Models
大型语言模型被广泛认为在少样本上下文学习(ICL)方面非常有效。最近多模态基础模型的进展使得突破性地延长了上下文窗口,为探索它们在更多演示示例下执行ICL的能力提供了机会。这项工作评估了从少样本到多样本ICL的多模态基础模型的性能。文章在涵盖自然图像、医学图像、遥感和分子图像等多个领域(自然图像、医学图像、遥感和分子图像)以及任务(多类别、多标签和细粒度分类)的10个数据集上对GPT-4o和Gemini 1.5 Pro进行了基准测试。可以观察到,包括多达近2000个多模态演示示例的多样本ICL相比于少样本(<100个示例)ICL,在所有数据集上都导致了实质性的改进。此外,Gemini 1.5 Pro的性能在许多数据集上继续以对数线性方式提高,直至测试示例的最大数量。鉴于多样本ICL所需长提示的高推理成本,本文还探讨了在单个API调用中批处理多个查询的影响。实验发现,批量处理多达50个查询可以在零样本和多样本ICL下导致性能提升,在多个数据集的零样本设置中实现了实质性的收益,同时大幅降低了每个查询的成本和延迟。最后,文章衡量了模型的ICL数据效率,即模型从更多演示示例中学习的速度。可以发现,虽然GPT-4o和Gemini 1.5 Pro在各个数据集上的零样本性能相似,但在大多数数据集上,Gemini 1.5 Pro的ICL数据效率高于GPT-4o。结果表明,多样本ICL可以使用户有效地将多模态基础模型适应于新的应用和领域。
文章链接:
https://arxiv.org/pdf/2405.09798
6. TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction
在模拟中学习并将学到的策略转移到现实世界具有使机器人成为通用型的潜力。这种方法的关键挑战是解决模拟到现实(sim-to-real)之间的差距。以往的方法通常需要先验的领域特定知识。本文认为获得这种知识的一种简单方式是让人类观察和协助机器人在现实世界中执行策略。然后机器人可以从人类那里学习,以消除各种模拟到现实的差距。该研究提出了TRANSIC,这是一种基于人机协同的数据驱动方法,用于实现成功的模拟到现实转移。TRANSIC允许人类通过干预和在线校正来全面地增强模拟策略以克服各种未建模的模拟到现实的差距。通过从人类的校正中学习残差策略,并将其与模拟策略集成以进行自主执行。文章展示了所提出的方法可以在复杂且接触丰富的操作任务中实现成功的模拟到现实转移,例如家具组装。通过在模拟中学习的策略与从人类那里学习的策略的协同集成,TRANSIC作为一种全面解决各种常常共存的模拟到现实差距的方法是有效的。它具有随着人类努力而扩展的吸引人的特性。
文章链接:
https://arxiv.org/pdf/2405.10315
本篇文章由陈研整理
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。
我知道你
在看
欢迎讨论,期待你的
留言
点击 阅读原文 查看更多!