大模型日报|今日必读的 13 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.PowerInfer-2:智能手机上的快速大型语言模型推理

上海交通大学团队提出了一个专为在智能手机上高速推断大型语言模型(LLM)而设计的框架——PowerInfer-2,该框架尤其适用于规模超过设备内存容量的模型。

PowerInfer-2 的关键之处在于将传统的矩阵计算分解为细粒度神经元集群计算,从而利用智能手机中的异构计算、内存和 I/O 资源。具体来说,PowerInfer-2 采用多态神经元引擎,可针对 LLM 推断的各个阶段调整计算策略。此外,它还引入了分段神经元缓存和细粒度神经元集群级流水线,有效地减少和隐藏了 I/O 操作造成的开销。

PowerInfer-2 的实现和评估证明,它有能力在两款智能手机上支持多种 LLM 模型,与 SOTA 框架相比,速度最多提高了 29.2 倍。值得注意的是,PowerInfer-2 是首个在智能手机上以 11.68 token/s 的生成速度为 TurboSparse-Mixtral-47B 模型提供服务的系统。对于完全适合内存的模型,PowerInfer-2 可以减少约 40% 的内存使用量,同时保持与 llama.cpp 和 MLC-LLM 相当的推理速度。

论文链接:
https://arxiv.org/abs/2406.06282
项目地址:
http://www.powerinfer.ai/v2

2.阿里达摩院推出视频大语言模型 VideoLLaMA 2

在这项工作中,阿里达摩院团队提出了一套视频大语言模型——VideoLLaMA 2,旨在增强面向视频和音频任务的时空建模和音频理解能力。在其前身的基础上,VideoLLaMA 2 采用了量身定制的时空卷积(STC)连接器,可有效捕捉视频数据错综复杂的时空动态。此外,他们还通过联合训练将音频分支集成到模型中,从而通过无缝集成音频线索来丰富模型的多模态理解能力。

在多选视频问题解答(MC-VQA)、开放式视频问题解答(OE-VQA)和视频字幕(VC)任务上进行的综合评估表明,VideoLLaMA 2 在开源模型中始终取得具有竞争力的结果,甚至在几个基准测试中接近某些专有模型。此外,与现有模型相比,VideoLLaMA 2 在纯音频和音频视频问题解答(AQA 和 OE-AVQA)基准测试中表现出合理的改进。

论文链接:
https://arxiv.org/abs/2406.07476
项目地址:
https://github.com/DAMO-NLP-SG/VideoLLaMA2

3.MMWorld:多学科、多方面、多模态视频理解的新基准

多模态语言模型(MLLM)展示了“世界模型”的新兴能力——对复杂的现实世界动态进行解释和推理。为了评估这些能力,来自加州大学、微软的研究团队认为,视频是理想的媒介,因为视频包含了真实世界动态和因果关系的丰富表征。

为此,他们推出了一个多学科、多方面、多模态视频理解的新基准——MMWorld。MMWorld 有别于以往的视频理解基准,它有两个独特的优势:1)多学科,涵盖各种学科,而这些学科往往需要领域专业知识才能全面理解;2)多方面推理,包括解释、反事实思维、未来预测等。MMWorld 由一个人类标注的数据集和一个合成数据集组成,前者用于评估带有整个视频问题的 MLLM,后者用于分析单一感知模式下的 MLLM。MMWorld 共包含 1910 个视频,横跨 7 大学科和 69 个子学科,并配有 6627 个问题-答案对和相关说明。

评估包括 2 个专有和 10 个开源 MLLM,这些 MLLM 在 MMWorld 上表现不佳(尽管 GPT-4V 表现最好,但准确率仅为 52.3%),显示出很大的改进空间。进一步的消融研究揭示了其他有趣的发现,比如模型与人类不同的技能组合。

论文链接:
https://arxiv.org/abs/2406.08407

4.无需人工干预,自动发现 SOTA 偏好优化算法

离线偏好优化是提高和控制大语言模型(LLM)输出质量的关键方法。通常情况下,偏好优化是一项离线监督学习任务,使用的是人工创建的凸损失函数。虽然这些方法以理论见解为基础,但它们本质上受到人类创造力的限制,因此可能的损失函数的巨大搜索空间仍未得到充分探索。

为了解决这个问题,来自 Sakana AI、牛津大学和剑桥大学的研究团队采用了 LLM 驱动的目标发现方法,在没有(专家)人工干预的情况下自动发现 SOTA 偏好优化算法。

具体来说,他们根据先前评估的性能指标,迭代地促使 LLM 提出并实现新的偏好优化损失函数。这一过程会发现以前未知的高性能偏好优化算法。他们将其中性能最好的算法称为发现偏好优化算法(DiscoPOP),这是一种自适应混合逻辑损失和指数损失的新型算法。实验证明了 DiscoPOP 的优秀性能,并将其成功应用到了未训练的任务中。

论文链接:
https://arxiv.org/abs/2406.08414

5.斯坦福团队推出 TextGrad:通过文本自动“区分”

人工智能正在经历范式转变,由多个大语言模型(LLM)和其他复杂组件组成的系统正在实现突破。因此,为复合人工智能系统开发有原则的自动优化方法是最重要的新挑战之一。神经网络在早期也曾面临过类似的挑战,直到反向传播和自动分化技术的出现,才使优化工作变得简单易行,从而改变了这一领域。

受此启发,来自斯坦福的研究团队推出了 TextGrad,一个通过文本进行自动“区分”的强大框架。TextGrad 通过反向传播 LLM 提供的文本反馈来改进复合人工智能系统的各个组件。在该框架中,LLMs 提供丰富、通用的自然语言建议,从而优化计算图谱中的变量,范围从代码片段到分子结构。TextGrad 遵循 PyTorch 的语法和抽象,灵活易用。用户只需提供目标函数,无需调整框架的组件或提示,它就能立即执行各种任务。

他们在从问题解答、分子优化到放射治疗规划等各种应用中展示了 TextGrad 的有效性和通用性。在不修改框架的情况下,TextGrad 将 Google-Proof Question Answering 中 GPT-4o 的零样本准确率从 51% 提高到了 55%,在优化 LeetCode-Hard 编码问题解决方案时获得了 20% 的相对性能提升,改进了推理提示,设计出了具有理想硅学结合力的新药样小分子,并设计出了具有高特异性的肿瘤放射治疗计划。

论文链接:
https://arxiv.org/abs/2406.07496

6.Google DeepMind:通过自动过程监督改进语言模型中的数学推理

复杂的多步骤推理任务,如解决数学问题或生成代码,即使对于先进的大语言模型(LLM)来说,仍然存在一定困难。使用结果奖励模型(ORM)验证 LLM 输出是一种标准的推理时间(inference-time)技术,旨在提高 LLM 的推理性能。然而,对于推理链冗长或多跳的推理任务来说,这仍然是不够的,因为在这些任务中,中间结果既没有得到适当的奖励,也没有受到适当的惩罚。过程监督通过在推理过程中分配中间奖励来解决这一局限性。迄今为止,用于收集过程监督数据的方法要么依赖于人工注释,要么依赖于每步蒙特卡洛估算,而这两种方法的扩展成本都过于昂贵,因此阻碍了这一技术的广泛应用。

为了应对这一挑战,Google DeepMind 团队提出了一种名为 OmegaPRM 的分而治之式蒙特卡洛树搜索(MCTS)算法,用于高效收集高质量的过程监控数据。该算法通过二进制搜索迅速识别出思维链(CoT)中的第一个错误,并平衡积极和消极例子,从而确保效率和质量。因此,他们能够收集超过 150 万个流程监督注释,用于训练流程奖励模型(PRM)。利用这种全自动过程监督和加权自洽算法,他们提高了经过指令调微调的 Gemini Pro 模型的数学推理性能,在 MATH 基准测试中取得了 69.4% 的成功率,与 51% 的基础模型性能相比,相对提高了 36%。此外,整个过程无需任何人工干预,因此与现有方法相比,这一方法在经济和计算上都具有成本效益。

论文链接:
https://arxiv.org/abs/2406.06592

7.Prompt 报告:提示技术系统调查

生成式人工智能(GenAI)系统正越来越多地应用于工业和研究领域的各个环节。开发人员和最终用户通过使用提示(prompt)或提示工程与这些系统进行交互。虽然 "提示 "是一个广泛存在且研究较多的概念,但由于该领域刚刚起步,因此存在术语冲突,而且对 "提示 "的本体理解也不透彻。

在这项工作中,来自马里兰大学的研究团队及其合作者通过对提示技术进行分类和分析,建立了对提示的结构化理解。他们提出了一个包含 33 个词汇的综合词汇表,一个包含 58 种纯文字提示技术和 40 种其他方式提示技术的分类法。他们还对有关自然语言前缀提示的全部文献进行了荟萃分析。

论文链接:
https://arxiv.org/abs/2406.06608

8.微软研究院推出 MedFuzz:探索医学问题解答中大语言模型的鲁棒性

大语言模型(LLM)在医学问题解答基准测试中取得了令人瞩目的成绩。然而,高基准准确率并不意味着其性能可以推广到真实世界的临床环境中。医疗问题解答基准依赖于与量化 LLM 性能一致的假设,但这些假设在开放的临床环境中可能并不成立。然而,LLM 可以学习到广泛的知识,这些知识可以帮助 LLM 在实际条件下进行推广,而无需考虑基准中不切实际的假设。

来自微软研究院的研究团队及其合作者试图量化 LLM 医学问题解答基准性能在违反基准假设时的泛化程度。具体来说,他们提出了一种对抗方法——MedFuzz。MedFuzz 尝试以混淆 LLM 的方式修改基准问题。他们通过针对 MedQA 基准中提出的患者特征的强假设来演示这种方法。成功的“攻击”会以不太可能欺骗医学专家的方式修改基准问题,但却会“欺骗”LLM,使其从正确答案变为错误答案。

此外,他们还介绍了一种置换测试技术,该技术可确保成功的攻击具有统计学意义。他们展示了如何利用“MedFuzzed”基准的性能以及单个成功的攻击。这些方法有望让我们深入了解 LLM 在更现实的环境中鲁棒运行的能力。

论文链接:
https://arxiv.org/abs/2406.06573

9.港大、阿里、蚂蚁团队提出图像编辑新方法 MimicBrush

图像编辑是一项实用但极具挑战性的任务,因为用户的需求多种多样,其中最难的部分是精确描述编辑后的图像应该是什么样子。在这项工作中,来自港大、阿里和蚂蚁集团的研究团队提出了一种新的编辑形式,即模仿编辑(imitative editing),从而帮助用户更方便地发挥自己的创造力。

具体来说,在编辑感兴趣的图像区域时,用户可以自由地直接从一些野外参照物(如在网上看到的一些相关图片)中汲取灵感,而无需处理参照物与来源之间的匹配问题。这样的设计需要系统自动找出从参考资料中可以得到什么来进行编辑。为此,他们提出了一个名为 MimicBrush 的生成式训练框架,它可以从视频剪辑中随机选择两帧图像,遮挡其中一帧图像的某些区域,然后学习如何利用另一帧图像的信息来恢复被遮挡的区域。这样,他们根据扩散先验开发的模型就能以自我监督的方式捕捉独立图像之间的语义对应关系。

实验证明了这一方法在各种测试情况下的有效性,以及与现有方法相比的优越性。

论文链接:
https://arxiv.org/abs/2406.07547
项目地址:
https://xavierchen34.github.io/MimicBrush-Page/

10.上海交大、北航、小红书提出 Vript:一段视频胜过千言万语

多模态学习,尤其是视频理解和生成方面的进步,需要高质量的视频文本数据集来提高模型性能。

由上海交通大学、北京航空航天大学和小红书研究团队提出的 Vript 通过精心标注的 12000 高分辨率视频语料库解决了这一问题,为超过 42 万个片段提供了详细、密集、类似脚本的字幕。每个片段的字幕约有 145 个单词,比大多数视频文本数据集长 10 倍以上。与以往数据集中仅记录静态内容的字幕不同,他们将视频字幕增强为视频脚本,不仅记录内容,还记录相机的操作,包括 shot 类型(中景、特写等)和相机运动(平移、倾斜等)。

通过使用 Vript,他们探索了三种训练范式,使更多文本与视频模式对齐,而不是片段-字幕对齐。这使得 Vriptor 成为开源模型中的 SOTA 视频字幕模型,其性能可与 GPT-4V 相媲美。Vriptor 也是一个功能强大的模型,能够为长视频端到端生成密集而详细的字幕。

此外,他们还提出了 Vript-Hard,这是一个由三个视频理解任务组成的基准,比现有基准更具挑战性:Vript-HAL 是首个评估视频 LLM 中的动作和物体幻觉的基准;Vript-RR 将推理与检索相结合,解决了长视频 QA 中的问题模糊性;Vript-ERO 是一项新任务,用于评估对长视频中事件的时间理解,而非之前工作中对短视频中动作的理解。

论文链接:
https://arxiv.org/abs/2406.06040
GitHub 地址:
https://github.com/mutonix/Vript

11.Husky:用于多步推理的统一、开源语言智能体

语言智能体(agent)通过使用精确执行每个步骤的工具来执行复杂的任务。然而,现有的大多数智能体都是基于专有模型或针对特定任务设计的,例如数学或多跳问题解答。

来自华盛顿大学、Meta 和艾伦人工智能研究所的研究团队提出了一种全面的开源语言智能体——Husky,其能在统一的行动空间中学习推理,以解决涉及数字、表格和知识推理的各种复杂任务。Husky 在两个阶段之间迭代:1)生成解决给定任务的下一步行动;2)使用专家模型执行行动并更新当前的解决方案状态。他们为解决复杂任务确定了一个全面的行动本体,并收集高质量数据来训练执行这些行动的专家模型。

实验表明,在 14 个评估数据集上,Husky 的表现优于之前的语言智能体。此外,他们还提出了一个新的评估集——HuskyQA,用于对语言智能体的混合工具推理进行压力测试,重点是检索缺失知识和执行数字推理。尽管使用的是 7B 模型,Husky 在这些任务中的表现却与 GPT-4 等前沿 LM 不相上下,甚至更好。

论文链接:
https://arxiv.org/abs/2406.06469
GitHub 地址:
https://github.com/agent-husky/Husky-v1

12.OPPO 推出 MLCM:潜扩散模型的多步一致性蒸馏

将大型潜在扩散模型(LDM)蒸馏为可快速采样的模型正吸引着越来越多的研究兴趣。然而,大多数现有方法都面临着两难境地,要么依赖于不同采样预算的多个单独蒸馏模型,要么牺牲有限(如 2-4)和/或中等(如 5-8)采样步骤的生成质量。

为了解决这些问题,来自 OPPO 的研究团队及其合作者将最近的多步骤一致性蒸馏(MCD)策略扩展到代表性 LDM,建立了用于低成本高质量图像合成的多步骤潜在一致性模型(MLCMs)方法。他们采用渐进式训练策略进一步增强 MCD,以加强段间一致性,从而提高几步生成的质量。他们将教师模型采样轨迹中的状态作为 MLCM 的训练数据,从而降低了对高质量训练数据集的要求,并缩小了提炼模型的训练与推理之间的差距。MLCM 与偏好学习策略兼容,可进一步提高视觉质量和美感。根据经验,MLCM 只需 2-8 个采样步骤就能生成高质量、令人愉悦的图像。

在 MSCOCO-2017 5K 基准测试中,从 SDXL 提炼出的 MLCM 仅用 4 步就获得了 33.30 的 CLIP 分数、6.19 的美学分数和 1.20 的图像奖励,超过了 4 步 LCM [23]、8 步 SDXL-Lightning [17] 和 8 步 HyperSD [33]。

论文链接:
https://arxiv.org/abs/2406.05768

13.谷歌推出用于开发疗法的通用大语言模型 Tx-LLM

开发疗法是一个漫长而昂贵的过程,需要满足许多不同的标准,而能够加快这一过程的人工智能模型将非常重要。然而,目前的大多数人工智能方法只能处理狭义的任务集,而且往往局限于特定领域。

为了弥补这一差距,谷歌团队一种通用大语言模型(LLM)——Tx-LLM,其由 PaLM-2 微调而成,可编码有关各种治疗模式的知识。Tx-LLM 使用 709 个数据集进行训练,这些数据集针对药物发现管道各个阶段的 66 项任务。使用单组权重,Tx-LLM 可同时处理各种化学或生物实体(小分子、蛋白质、核酸、细胞系、疾病)与自由文本的交错,使其能够预测广泛的相关属性,在 66 项任务中的 43 项任务上接近 SOTA,在 22 项任务上达到 SOTA。其中,Tx-LLM 尤其强大,在结合分子 SMILES 表示法与文本(如细胞系名称或疾病名称)的任务中,其平均性能超过了同类最佳水平,这可能是由于在预训练期间学习了上下文。他们也观察到不同药物类型的任务(如涉及小分子的任务和涉及蛋白质的任务)之间存在正迁移的证据,并研究了模型大小、领域微调和提示策略对性能的影响。

论文链接:
https://arxiv.org/abs/2406.06316

  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值