大模型日报|今日必读的 13 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.谷歌推出项目语言模型 ILM,用于对话式推荐

大型语言模型(LLM)因其涌现能力,在复杂对话理解、推理和编码等任务中取得了巨大成功。这些涌现能力已通过多模态扩展到图像、音频和视频功能。另一方面,推荐系统对信息搜索和项目发现需求至关重要。

最近,人们开始尝试将 LLM 应用于推荐。当前尝试的一个困难是,底层 LLM 通常没有在推荐系统数据上进行训练,而推荐系统数据主要包含用户交互信号,并且通常不公开。另一个难点是用户交互信号往往具有不同于自然语言文本的模式,与传统的推荐系统方法相比,LLM 的训练设置能否从交互信号中学习到更多的非琐碎知识,目前还不清楚。最后,在从推荐系统数据中学习时,很难针对不同的使用情况训练多个 LLM,也很难保留原有的语言和推理能力。

为了解决这三个局限性,来自谷歌的研究团队提出了一种由一个项目编码器和一个冻结 LLM 组成项目语言模型(Item-Language Model,ILM),项目编码器用于生成文本对齐的项目表征,从而编码用户交互信号;冻结 LLM 则能利用保留的预训练知识理解这些项目表征。

大量实验证明了语言对齐和用户交互知识在项目编码器中的重要性。

论文链接:
https://arxiv.org/abs/2406.02844

2.PLaD:利用伪偏好对进行基于偏好的大型语言模型提炼

大型语言模型(LLM)在各种任务中表现出了令人印象深刻的能力,但其庞大的参数规模限制了其在资源受限环境中的适用性。知识提炼(KD)提供了一种可行的解决方案,它可以将大型教师模型中的专业知识转移到紧凑的学生模型中。

然而,传统的知识蒸馏技术在应用于 LLM 时面临着特定的挑战,包括对 LLM 输出的访问受限、教师模型与学生模型之间存在巨大的能力差距以及固有的误校准问题。

来自佐治亚理工学院和谷歌的研究团队提出了基于偏好的新型 LLM 提炼框架 PLaD。PLaD 利用师-生模型能力差异生成伪偏好对,其中教师模型输出优于学生模型输出。然后,PLaD 利用排序损失来重新校准学生模型对序列可能性的估计,从而引导学生模型专注于了解输出的相对质量,而不是简单地模仿教师模型。PLaD 绕过了访问教师 LLM 内部状态的需要,解决了学生 LLM 表达能力的限制,并缓解了学生 LLM 校准错误的问题。

通过对两个序列生成任务和各种 LLM 的广泛实验,他们证明了所提出的 PLaD 框架的有效性。

论文链接:
https://arxiv.org/abs/2406.02886

3.Audio Mamba:用于音频表征学习的双向状态空间模型

目前,Transformer 已迅速成为音频分类的首选,超过了基于 CNN 的方法。

然而,音频谱图 Transformer(AST)由于自注意力的原因,会出现二次缩放。消除这种二次自注意力成本是一个很有吸引力的方向。最近,状态空间模型(SSM),如 Mamba,在语言和视觉任务中展示了这方面的潜力。

来自韩国科学技术院的研究团队探讨了在音频分类任务中是否有必要依赖自注意力的问题。他们提出了首个不依赖自注意力、纯粹基于 SSM 的音频分类模型 Audio Mamba(AuM)。他们在各种音频数据集(包括六个不同的基准)上对 AuM 进行了评估,结果表明它与成熟的 AST 模型相比,性能相当甚至更好。

论文链接:
https://arxiv.org/abs/2406.03344
GitHub 网址:
https://github.com/mhamzaerol/Audio-Mamba-AuM

4.Block transformer:通过全局到局部语言建模,实现快速推理

来自韩国科学技术院、LG AI Research 和 Google DeepMind 的研究团队提出了 Block transformer,该架构对自回归 Transformer 采用分层全局到局部建模,从而缓解自注意力的推理瓶颈。

要应用自注意力,必须在每个解码步骤中从内存中检索所有先前序列的键值(KV)缓存。因此,KV 缓存 IO 成为批量推理的一个重要瓶颈。这些成本源于在全局上下文中应用自注意力,因此他们将全局建模的昂贵瓶颈隔离到下层,并在上层应用快速局部建模。

为了减轻下层的剩余成本,他们将输入 token 聚合成固定大小的块,然后在这个粗略的层次上应用自注意力。上下文信息被聚合到单个嵌入中,使上层能够无需全局注意力解码下一个 token 块。由于摆脱了全局注意力瓶颈,上层可以充分利用计算硬件,最大限度地提高推理吞吐量。通过利用全局和局部模块,与具有同等复杂度的普通 Transformer 相比,Block Transformer 架构的推理吞吐量提高了 10-20 倍。他们的工作提出了一种新方法,通过全局到局部建模的新颖应用来优化语言模型推理。

论文链接:
https://arxiv.org/abs/2406.02657
GitHub 地址:
https://github.com/itsnamgyu/block-transformer

5.南京大学、阿里团队推出多语言视觉指令微调 Parrot

GPT-4V 等多模态大型语言模型(MLLM)的快速发展标志着通用人工智能迈出了重要一步。

现有方法主要是通过监督微调(SFT)将视觉编码器与 LLM 匹配,从而赋予 LLM 多模态能力,这使得 MLLM 对多种语言的固有反应能力随着训练过程的发展而逐渐退化。

来自南京大学和阿里巴巴的研究团队通过实证研究发现,不平衡的 SFT 数据集主要由以英语为中心的图像-文本对组成,导致非英语语言的性能显著下降。这是由于在 SFT 过程中,视觉编码器和 LLM 未能与多语言 token 保持一致。他们提出了一种利用文本引导在语言层面驱动视觉 token 对齐的新方法—— Parrot,使视觉 token 以不同的语言输入为条件,并使用专家混合( MoE)来促进多语言 token 的对齐。具体来说,为了加强非英语视觉 token 的对齐,他们使用初始视觉特征和文本嵌入计算交叉注意,然后将计算结果输入 MoE 路由器,从而选择最相关的专家。被选中的专家随后将初始视觉 token 转换为特定语言的视觉 token。

此外,考虑到该领域目前缺乏评估多语言能力的基准,他们收集并提供了一个包含 6 种语言、15 个类别和 12000 个问题的大规模多语言多模态基准—— MMMB。他们的方法不仅在多语言 MMBench 和 MMMB 上达到了 SOTA,而且在广泛的多模态任务中表现出色。

论文链接:
https://arxiv.org/abs/2406.02539

6.CamCo:相机可控、3D 一致“图生视频”

目前,视频扩散模型作为一种具有表现力的生成工具出现,普通用户可以随时使用它来创建高质量的视频内容。

然而,这些模型通常无法为视频生成提供精确的相机姿势控制,从而限制了电影语言的表达和用户控制。为此,来自德克萨斯大学奥斯汀分校和英伟达的研究团队提出了 CamCo,其允许对图生视频进行精细的相机姿势控制。

他们为预先训练好的图像-视频生成器配备了使用普吕克坐标精确参数化的摄像机姿态输入。为了增强所生成视频的 3D 一致性,他们在每个注意力块中集成了一个外极注意力模块,对特征图实施外极约束。此外,他们还在真实世界的视频中对 CamCo 进行了微调,这些视频中的相机姿态是通过运动结构算法估算出来以便更好地合成物体运动。

实验表明,与以前的模型相比,CamCo 显著提高了 3D 一致性和相机控制能力,同时还能有效生成可信的物体运动。

论文链接:
https://arxiv.org/abs/2406.02509
项目地址:
https://ir1d.github.io/CamCo/

7.RoboCasa:在日常环境中训练通用机器人

人工智能(AI)的最新进展在很大程度上得益于 scaling。然而,在机器人领域,由于无法获得大规模的机器人数据集,scaling 受到了阻碍。

来自德克萨斯大学奥斯汀分校和英伟达的研究团队,建议使用逼真的物理模拟作为扩展机器人学习方法的环境、任务和数据集的手段。他们提出了一个用于在日常环境中训练通用机器人的大规模模拟框架 RoboCasa。RoboCasa 以逼真多样的厨房环境场景为特色,提供了数以千计的 3D 资产,涵盖 150 多个对象类别以及数十种可交互的家具和电器。

他们利用生成式人工智能工具丰富了模拟的逼真性和多样性,如从文本到 3D 模型的物体资产和从文本到图像模型的环境纹理。他们设计了一套 100 项任务进行系统评估,其中包括在大型语言模型指导下生成的复合任务。为了促进学习,他们提供了高质量的人工演示,并整合了自动轨迹生成方法,从而以最小的人力负担大幅扩展了数据集。

实验表明,使用合成生成的机器人数据进行大规模模拟学习具有明显的扩展趋势,并显示了在真实世界任务中利用模拟数据的前景。

论文链接:
https://arxiv.org/abs/2406.02523
GitHub 链接:
https://robocasa.ai/

8.Cohere 提出自改进鲁棒偏好优化 SRPO

目前,在线和离线 RLHF 方法(如 PPO 和 DPO)在使人工智能与人类偏好保持一致方面都非常成功。然而,它们的最优解高度依赖于任务,即对分配外(OOD)任务非鲁棒性。

为此,来自 Cohere 的研究团队提出了一种自改进实用的、数学上有原则性的离线鲁棒偏好优化框架 —— SRPO,对任务的变化具有完全的鲁棒性。SRPO 的主要思想是将从人类偏好中学习的问题视为一个自我改进的过程,在数学上可以用最小-最大目标来表示,该目标旨在以对抗的方式联合优化自我改进策略和生成策略。

这个优化问题的解决方案与训练任务无关,因此对训练任务的变化具有鲁棒性。然后,他们展示了这一目标可以用非对抗性离线损失的形式重新表达,它可以使用标准的监督优化技术进行大规模优化,而无需奖励模型和在线推理。他们从人工智能胜率(WR)和人类(GOLD)完成率的角度展示了 SRPO 的有效性。尤其在对 OOD XSUM 数据集进行评估时,SRPO 在 5 次自我修正后以 15% 的明显优势超过了著名的 DPO,WR 达到 90%。

论文链接:
https://arxiv.org/abs/2406.01660

9.I4VGen:图像是文生视频的垫脚石

由于时空建模的复杂性和视频文本数据集的有限性,文本到视频的生成在质量和多样性方面不如文本到图像的合成。

来自阿里巴巴的研究团队提出了一种无需训练、即插即用的视频扩散推理框架——I4VGen,利用鲁棒性图像技术增强了文本到视频的生成能力。具体来说,I4VGen 将文本到视频的生成分解为两个阶段:锚定图像合成和锚定图像引导的视频合成。相应地,采用生成-选择流水线来实现视觉上逼真、语义上忠实的锚图像,并结合创新的噪声不变视频分数蒸馏采样,将图像动画化为动态视频,然后通过视频再生过程来完善视频。这种推理策略有效地缓解了普遍存在的终端信噪比不为零的问题。

广泛的评估表明,I4VGen 不仅能生成视觉逼真度和文字保真度更高的视频,还能无缝集成到现有的图像到视频扩散模型中,从而提高整体视频质量。

论文链接:
https://arxiv.org/abs/2406.02230
GitHub 地址:
https://xiefan-guo.github.io/i4vgen

10.Seed-TTS:高质量多功能语音生成模型系列

来自字节的研究团队提出了一个大规模自回归文本到语音(TTS)模型系列 —— Seed-TTS,能够生成与人类语音几乎无异的语音。

Seed-TTS 是语音生成的基础模型,在语音上下文学习方面表现出色,在说话人相似度和自然度方面的表现,在客观和主观评估中都能与真实的人类语音相媲美,可以通过微调在这些指标上获得更高的主观评分。Seed-TTS 对情感等各种语音属性具有卓越的可控性,能够为野生说话者生成极具表现力和多样性的语音。

此外,他们还提出了一种用于语音因式分解的自馏分方法以及一种强化学习方法,从而增强模型的鲁棒性、说话者的相似性和可控性。他们还提出了 Seed-TTS 模型的非自回归(NAR)变体——Seed-TTSDiT,采用了完全基于扩散的架构。与以往基于 NAR 的 TTS 系统不同,Seed-TTSDiT 不依赖于预先估计的音素持续时间,而是通过端到端处理来生成语音。他们证明了这一变体与基于语言模型的变体性能相当,并展示了其在语音编辑方面的有效性。

论文链接:
https://arxiv.org/abs/2406.02430
GitHub 地址:
https://bytedancespeech.github.io/seedtts_tech_report

11.斯坦福提出 DITTO:将语言模型与演示反馈对齐

语言模型的对齐是为了模仿许多人的“集体声音”,结果是输出结果与任何人都不一致。通过有监督的微调或 RLHF 可以引导 LLM 偏离通用输出,但对于新的临时任务来说,需要的数据集过大。

来自斯坦福大学的研究团队认为,可以利用极少数量(<10)的演示作为反馈,使 LLM 与特定环境对齐。他们的方法—— Demonstration ITerated Task Optimization(DITTO)——可直接将语言模型输出与用户的演示行为对齐。DITTO 利用在线模仿学习的理念,通过将用户的演示作为优先于 LLM 及其中间检查点输出的数据,以低成本生成在线比较数据。

他们评估了 DITTO 在新闻文章、电子邮件和博客文章等领域学习细粒度风格和任务一致性的能力。此外,他们还进行了一项用户研究,向参与者(16 人)征集了一系列演示。在他们的基准测试和用户研究中,他们发现 DITTO 的获胜率平均比少量提示、监督微调和其他自我游戏方法高出 19%。通过直接使用演示作为反馈,DITTO 为有效定制 LLM 提供了一种新方法。

论文链接:
https://arxiv.org/abs/2406.00888

12.ZeroSmooth:用于高帧率视频生成的免训练扩散器自适应技术

近年来,视频生成技术取得了长足进步,尤其是视频扩散模型问世以来。许多视频生成模型,如稳定视频扩散模型(SVD),都能生成可信的合成视频。

然而,由于 GPU 内存有限以及难以对大量帧集进行建模,大多数视频模型只能生成低帧率视频。为了进行时间压缩,训练视频总是以指定的间隔进行均匀采样。以往的方法通过在像素空间训练视频插值模型作为后处理阶段,或者在潜空间训练特定基础视频模型的插值模型来提升帧率。

来自中国科学院大学、中国科学院自动化研究所新模式实验室和腾讯的研究团队,基于生成式视频扩散模型提出了一种免训练视频插值方法,能以即插即用的方式通用于不同的模型。他们研究了视频扩散模型特征空间的非线性,并结合设计的隐态校正模块将视频模型 transformer 为自级联视频扩散模型。他们提出的自级联架构和校正模块可保持关键帧和插值帧之间的时间一致性。

为证明提出的方法的有效性,他们在多个流行的视频模型上进行了广泛的评估,特别是他们的免训练方法甚至可以与由巨大计算资源和大规模数据集支持的训练有素的插值模型相媲美。

论文链接:
https://arxiv.org/abs/2406.00908
GitHub 地址:
https://ssyang2020.github.io/zerosmooth.github.io

13.MMLU-Pro:更鲁棒、更具挑战性的多任务语言理解基准测试

在大规模语言模型时代,大规模多任务语言理解(MMLU)等基准测试在推动人工智能在不同领域的语言理解和推理能力方面发挥了关键作用。

然而,随着模型的不断改进,它们在这些基准测试中的表现也开始趋于平稳,使得辨别模型能力差异变得越来越困难。

来自滑铁卢大学、多伦多大学和卡内基梅隆大学提出了一个增强型数据集——MMLU-Pro,旨在通过整合更具挑战性、以推理为重点的问题,并将选择集从四个选项扩展到十个选项,从而扩展主要由知识驱动的 MMLU 基准。此外,MMLU-Pro 还剔除了 MMLU 中琐碎和嘈杂的问题。

实验结果表明,与 MMLU 相比,MMLU-Pro 不仅提高了挑战性,使准确率大幅下降了 16% 至 33%,而且在不同提示下表现出更高的稳定性。在 24 种不同提示风格的测试中,模型得分对提示变化的敏感度从 MMLU 的 4-5% 下降到 MMLU-Pro 的 2%。

此外,他们还发现,在 MMLU-Pro 中,与直接回答相比,利用思维链(CoT)推理的模型取得了更好的成绩,这与原始 MMLU 的结果形成了鲜明对比,表明 MMLU-Pro 包含了更复杂的推理问题。评估结果证实,MMLU-Pro 是一个更具区分度的基准,可以更好地跟踪该领域的进展。

论文链接:
https://arxiv.org/abs/2406.01574

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值