大模型日报|今日必读的 5 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.Google DeepMind 提出直接奖励优化(DRO)算法

无论是通过基于人类反馈的强化学习(RLHF),还是直接偏好优化(DPO),大型语言模型(LLM)对齐的主流框架都是从偏好数据中学习。这就需要建立数据集,其中每个元素都是一个四元组,由一个提示、两个独立的回答(提示的完成)和人类对这两个独立回答的偏好组成,从而产生一个偏好回答和一个不偏好回答。这种数据通常很少,而且收集成本很高。

另一方面,单轨迹数据集的每个元素都是由一个提示、一个回应和一个人类反馈组成的三元组,这种数据集自然更为丰富。例如,此类数据集的典型元素是 LLM 对用户提示的回应,以及用户的反馈(如竖起/放下大拇指)。

因此,在这项工作中,来自 Google DeepMind 的研究团队及其合作者提出了一种不需要成对偏好的框架和相关算法 DRO,即“直接奖励优化”(Direct Reward Optimisation)。DRO 使用一个简单的均方目标,可以通过多种方式实现。

他们使用 T5 语言模型对研究结果进行了实证验证,结果表明 DRO 的性能优于所选的基线算法,证实了 DRO 是一种简单、经验上令人信服的单轨迹策略优化方法。

论文链接:
https://arxiv.org/abs/2405.19107

2.谷歌新研究:GPT-4 在高阶心智理论任务中超过成年人类

来自谷歌的研究团队及其合作者探讨了大型语言模型(LLM)在多大程度上发展了高阶心智理论(ToM),即人类以递归方式对多种心理和情感状态进行推理的能力(比如,我认为你相信她知道)。

在先前工作的基础上,他们提出了一个手写测试套件——多阶心智理论问答(Multi-Order Theory of Mind Q&A ),并利用它将五个 LLM 的性能与新收集的成人人类基准进行比较。

他们发现,GPT-4 和 Flan-PaLM 在 ToM 任务上的整体表现达到了成人水平或接近成人水平,而 GPT-4 在 6 阶推理上的表现超过了成人。研究结果表明,在实现 ToM 能力方面,模型大小和微调之间存在相互作用,表现最好的 LLM 已经发展出了 ToM 的综合能力。鉴于高阶 ToM 在人类广泛的合作和竞争行为中扮演的角色,这些发现对面向用户的 LLM 应用具有重要意义。

论文链接:
https://arxiv.org/abs/2405.18870

3.MAP-Neo:首个完全开源的双语 LLM

最近,许多机构开源了几个强大的大型语言模型(LLM),如 LLaMA-3,可与现有的闭源 LLM 相媲美。然而,它们只提供了模型的权重,大部分细节(如中间检查点、预训练语料库和训练代码等)都没有公开。为了提高 LLM 的透明度,研究界已经形成了开源真正开放的 LLM(如 Pythia、Amber、OLMo),这些模型提供了更多细节(如预训练语料和训练代码)。这些模型极大地推动了对这些大型模型的科学研究,包括对其优缺点、偏差和风险的研究。然而,现有的真正开放的推理、知识和编码任务 LLM 仍然不如现有的模型规模类似的最先进 LLM。

为此,来自 M-A-P、滑铁卢大学、武汉大学和零一万物的研究团队开源了 MAP-Neo,这是一个能力强、透明度高的双语语言模型,拥有 7B 参数,在 4.5T 高质量 token 上从头开始训练。MAP-Neo 是首个完全开源的双语 LLM,其性能可与现有的先进 LLM 相媲美。此外,他们还开源了重现 MAP-Neo 的所有细节,包括经过清洗的预训练语料库、数据清理管道、检查点以及经过优化的训练/评估框架。

论文链接:
https://arxiv.org/abs/2405.19327
项目地址:
https://map-neo.github.io/

4.英伟达推出全模态模型 X-VILA

为通过整合图像、视频和音频模态来扩展大型语言模型(LLM)的功能,来自英伟达的研究团队及其合作者提出了一种全模态模型——X-VILA。

通过将特定模态编码器与 LLM 输入对齐,将扩散解码器与 LLM 输出对齐,X-VILA 实现了跨模态理解、推理和生成。为了促进这种跨模态对齐,他们策划了一个有效的交错任意模态指令跟随数据集。此外,他们还发现当前的跨模态对齐方法存在一个重大问题,即会导致视觉信息丢失。为了解决这个问题,他们提出了一种带有视觉嵌入模块的视觉对齐机制。

然后,他们介绍了一种用于训练 X-VILA 的资源节约型方法,X-VILA 在任意模态到任意模态的对话中均表现出色,大大超越了之前的方法。即使在没有类似训练数据的情况下,X-VILA 也能展示跨模态的新兴特性。

论文链接:
https://arxiv.org/abs/2405.19335

5.综述:当 LLM 遇见多模态生成和编辑

随着近年来大型语言模型(LLM)的发展,人们对将 LLM 与多模态学习相结合的兴趣与日俱增。以往对多模态大型语言模型(MLLMs)的研究主要集中在理解方面。

在这项工作中,来自香港科技大学的研究团队及其合作者详细阐述了不同领域(包括图像、视频、3D 和音频等)的多模态生成,并重点介绍了这些领域里程碑式作品的显著进展。具体来说,他们详尽研究了这些研究中使用的方法和多模态数据集背后的关键技术组件。此外,他们还深入研究了可利用现有生成模型进行人机交互的工具增强型多模态智能体(agent)。最后,他们还全面讨论了人工智能安全方面的进展,并研究了新兴应用和未来前景。

论文链接:
https://arxiv.org/abs/2405.19334
GitHub 地址:
https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值