大模型日报|12 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.斯坦福、谷歌团队推出首个视频自训练方法 Video-STaR

大型视觉语言模型(LVLM)的性能取决于其训练数据集的规模和质量。现有的视频指令微调数据集是通过用视频字幕提示大语言模型(LLM)来生成问答对的,缺乏多样性,大多是描述性的。与此同时,存在许多具有不同标签和监督的标签视频数据集,但将这些数据集集成到 LVLM 中并不容易。

在这项工作中,来自斯坦福大学和 Google Research 的研究团队提出了首个视频自训练方法——增强推理视频自训练(Video-STaR)。Video-STaR 允许利用任何标记的视频数据集进行视频指令微调。在 Video-STaR 中,LVLM 在指令生成和微调之间循环运行,他们发现:(1)LVLM 可以提高通用视频理解能力;(2)LVLM 可以在现有监督下适应新的下游任务。在生成过程中,LVLM 会被提示提出一个答案。然后只筛选出包含原始视频标签的答案,然后在生成的数据集上重新训练 LVLM。通过只对包含正确视频标签的生成答案进行训练,Video-STaR 利用这些现有视频标签作为视频指令微调的弱监督。

研究结果表明,Video-STaR 增强型 LVLM 在以下方面的性能有所提高:(1)通用视频 QA,TempCompass 的性能提高了 10%;(2)下游任务,Video-STaR 将 Kinetics700-QA 的准确率提高了 20%,将 FineDiving 的动作质量评估提高了 15%。

论文链接:
https://arxiv.org/abs/2407.06189
项目地址:
https://orrzohar.github.io/projects/video-star/

2.清华团队提出智能体互联网(IoA)框架

大语言模型(LLM)的快速发展为开发能力极强的自主智能体(agent)奠定了基础。然而,现有的多智能体框架由于依赖于在自身生态系统中定义的智能体,往往难以整合具备各种能力的第三方智能体,它们在模拟分布式环境方面也面临挑战,因为大多数框架仅限于单设备设置。此外,这些框架通常依赖于硬编码的通信管道,限制了它们对动态任务要求的适应性。

受互联网概念的启发,来自清华大学的研究团队及其合作者提出了智能体互联网(IoA),这是一个新颖的框架,通过为基于 LLM 的多智能体协作提供灵活、可扩展的平台来解决上述问题。

IoA 引入了一个智能体集成协议、一个类似即时通讯的架构设计以及一个智能体组队和对话流控制的动态机制。通过对通用助理任务、具身 AI 任务和检索增强生成基准的广泛实验,他们证明了 IoA 的性能始终优于最先进的基准,展示了它促进异构智能体之间有效协作的能力。IoA 代表着在类似互联网的环境中连接不同智能体的一个步骤,在这种环境中,智能体可以无缝协作,实现更高的智能和能力。

论文链接:
https://arxiv.org/abs/2407.07061
GitHub 地址:
https://github.com/OpenBMB/IoA

3.VIMI:通过多模态指令将视频生成接地

现有的文本到视频扩散模型仅依赖纯文本编码器进行预训练。这种局限性源于缺乏大规模的多模态提示视频数据集,从而导致缺乏视觉基础,限制了其在多模态整合中的通用性和应用。

为了解决这个问题,来自 Snap、UC Merced 和卡内基梅隆大学的研究团队,利用检索方法将上下文示例与给定的文本提示配对,构建了一个大规模多模态提示数据集,然后利用两阶段训练策略,在同一模型中完成不同的视频生成任务。

首先,他们提出了一个多模态条件视频生成框架,用于在这些增强型数据集上进行预训练,从而建立一个基础视频生成模型。然后,他们在三个视频生成任务中对第一阶段的模型进行微调,并纳入多模态指令。这一过程进一步完善了模型处理不同输入和任务的能力,确保了多模态信息的无缝整合。经过这两个阶段的训练过程,VIMI 展示了多模态理解能力,能根据所提供的输入内容生成语境丰富的个性化视频。与之前的视觉基础视频生成方法相比,VIMI 可以合成具有大范围运动的一致且时间上连贯的视频,同时保留语义控制。最后,VIMI 还在 UCF101 基准上实现了文本到视频生成结果 SOTA。

论文链接:
https://arxiv.org/abs/2407.06304
项目地址:
https://snap-research.github.io/VIMI/

4.微软推出 MInference:将 LLM 处理时间缩短 90%

大语言模型(LLM)推理所面临的计算挑战仍然是其广泛应用的一大障碍,尤其是随着提示长度的不断增加。由于注意力计算的二次方复杂性,在单个 A100 GPU 上,8B LLM 处理一个包含 100 万个 token 的提示需要 30 分钟。现有的加速预填充方法在应用于长上下文 LLM 时往往无法保持可接受的准确性或效率。

为加速长序列处理的预填充,来自微软的研究团队提出了一种稀疏计算方法——MInference(Milliontokens Inference)。具体来说,他们确定了长上下文注意力矩阵中的三种独特模式——A-shape、Vertical-Slash 和 Block-Sparsethat,可用于在 GPU 上进行高效的稀疏计算。他们为每个注意力头离线确定最佳模式,并在推理过程中根据分配的模式动态建立稀疏索引。有了模式和稀疏指数,他们就能通过优化的 GPU 内核执行高效的稀疏注意力计算,从而显著降低长上下文 LLM 预填充阶段的延迟。这一技术可直接应用于现有的 LLM,无需对预训练设置进行任何修改或额外的微调。

在各种下游任务(包括 InfiniteBench、RULER、PG-19 和 Needle In A Haystack)和模型(包括 LLaMA-3-1M、GLM4-1M、Yi-200K、Phi-3-128K 和 Qwen2-128K)上的评估结果显示,MInference 在 A100 上有效地将预填充推理延迟降低了 10 倍,同时保持了准确性。

论文链接:
https://arxiv.org/abs/2407.02490
项目地址:
https://hqjiang.com/minference.html

5.微软研究院推出可扩展的智能体框架 AgentInstruct

合成数据对于加速大、小语言模型的开发越来越重要。尽管有一些成功的使用案例,但研究人员也对模型崩溃和模仿其他模型的缺点提出了担忧。造成这种差异的原因是合成数据的质量和多样性各不相同。要有效利用合成数据,通常需要花费大量人力来整理数据。

在这项工作中,来自 Microsoft Research 的研究团队使用合成数据进行后期训练,即“通过强大的模型创建数据并向另一个模型传授新的技能或行为”,他们将其称为生成式教学(Generative Teaching)。他们提出了个可扩展的智能体框架——AgentInstruct,用于自动创建大量不同的高质量合成数据。只需将文本文档和代码文件等原始数据源作为种子,AgentInstruct 就可以创建提示和回复。他们还创建了一个包含 2500 万对句子的训练后数据集,用于教授语言模型的不同技能,如文本编辑、创意写作、工具使用、编码、阅读理解等,从而展示了 AgentInstruct 的实用性。该数据集可用于任何基础模型的指令微调。

他们利用这些数据对 Mistral-7b 进行了后期训练。将生成的 Orca-3 模型与 Mistral-7b-Instruct(使用相同的基础模型)进行比较,他们发现在许多基准测试中都有显著改进。例如,在 AGIEval 上提高了 40%,在 MMLU 上提高了 19%,在 GSM8K 上提高了 54%,在 BBH 上提高了 38%,在 AlpacaEval 上提高了 45%。此外,它的性能始终优于 LLAMA-8B-instruct 和 GPT-3.5-turbo 等其他模型。

论文链接:
https://arxiv.org/abs/2407.03502

6.ANOLE:用于交错图像-文本生成的开放、自回归、原生大型多模态模型

先前的开源大型多模态模型(MLLM)面临着几个局限性:(1)它们通常缺乏原生集成,需要适配器将视觉表征与预先训练好的大语言模型(LLM)对齐;(2)许多模型仅限于单模态生成;(3)虽然有些模型支持多模态生成,但它们依靠单独的扩散模型进行视觉建模和生成。

为了减少这些局限性,来自 GAIR 的研究团队提出了一个用于交错图像-文本生成的开放、自回归、原生大型多模态模型——Anole。他们基于 Meta AI 的 Chameleon 构建了 Anole,采用了一种创新的微调策略,既能有效利用数据,又能有效利用参数。Anole 展示了高质量、连贯的多模态生成能力。模型、训练框架和指令微调数据已开源。

论文链接:
https://arxiv.org/abs/2407.06135

7.清华团队推出 LLM 增强实体链接方法 LLMAEL

实体链接(EL)模型在根据给定上下文将提及内容(mention)映射到相应实体方面有很好的表现。然而,由于训练数据有限,EL 模型很难对长尾实体进行消歧。与此同时,大语言模型(LLM)在解释不常见的提及方面更为强大。然而,由于缺乏专门的训练,LLM 在生成正确的实体 ID 方面存在缺陷。此外,训练 LLM 执行 EL 需要大量成本。

为此,来自清华大学和北京大学的研究团队推出了 LLM 增强实体链接——LLMAEL,这是一种即插即用的方法,可以通过 LLM 数据增强来增强实体链接。他们利用 LLM 作为知识上下文增强器,生成以提及为中心的描述作为额外输入,同时保留传统的 EL 模型用于特定任务处理。

在 6 个标准数据集上进行的实验表明,LLMAEL 在大多数情况下都优于基准 EL 模型,而经过微调的 LLMAEL 在所有 6 个基准中都取得了 SOTA。

论文链接:
https://arxiv.org/abs/2407.04020

8.MJ-Bench:评估多模态奖励模型的“文生图”反馈能力

虽然 DALLE-3、Stable Diffusion 等文本到图像模型发展迅速,但它们依然面临着幻觉、偏见和产生不安全、低质量输出等挑战。要有效地解决这些问题,关键是要根据“多模态法官”(multimodal judge)的测评结果,使这些模型与预期行为对齐。尽管非常重要,但目前的 multimodal judge 经常对模型的能力和局限性进行不充分的评估,这可能会导致不对齐和不安全的微调结果。

为了解决这个问题,来自北卡罗来纳大学教堂山分校、中国科学技术大学和北京大学的研究团队及其合作者,提出了一个新基准——MJ-Bench,其结合了一个全面的偏好数据集,从四个关键角度(对齐、安全性、图像质量和偏差)评估 multimodal judge 为图像生成模型提供反馈的能力。具体来说,他们在偏好数据集的每个分解子类别上评估了多种 multimodal judge,包括基于 CLIP 的较小尺寸评分模型、开源 VLM(如 LLaVA 系列)和闭源 VLM(如 GPT-4o、Claude 3)。

实验表明,闭源 VLM 通常能提供更好的反馈,GPT-4o 的平均表现优于其他模型。与开源 VLM 相比,较小尺寸的评分模型在文本-图像对齐和图像质量方面能提供更好的反馈,而开源 VLM 由于具备更强的推理能力,在安全性和生成偏差方面可以提供更准确的反馈。

对反馈量表的进一步研究表明,VLM 通常可以用自然语言(如 Likert-scale)提供比数字量表更准确、更稳定的反馈。值得注意的是,使用这些 multimodal judge 的单独反馈对端到端微调模型进行的人工评估也得出了类似的结论,进一步证实了 MJ-Bench 的有效性。

论文链接:
https://arxiv.org/abs/2407.04842

9.Google DeepMind:用弱 LLM 评判强 LLM 的可扩展监督

可扩展的监督协议旨在使人类能够准确监督“超人”的人工智能(AI)。

在这项工作中,来自 Google DeepMind 的研究团队探讨了辩论(debate)协议,即两个人工智能竞争说服一名法官;咨询(consultancy)协议,即一个人工智能试图说服一名提问的法官;以及与直接回答问题的基线进行比较,即法官在没有人工智能的情况下直接回答问题。

他们使用大语言模型(LLM)作为智能体和人类法官的替代,并假定法官模型要弱于智能体模型。他们以法官和智能体之间的各种不对称情况为基准,扩展了以前在信息不对称的单一抽取式 QA 任务方面的工作,也包括数学、编码、逻辑和多模态推理不对称情况。

他们发现,在所有任务中,当咨询被随机分配为争论正确/错误答案时,辩论的效果都优于咨询。将辩论与直接回答问题进行比较,结果取决于任务类型:在信息不对称的抽取式 QA 任务中,辩论优于直接回答问题,但在信息不对称的其他任务中,结果不一。以往的研究为辩论/咨询指定了一个要论证的答案。而当他们允许二者选择支持哪一个答案时,他们发现法官在辩论中被错误答案说服的频率比咨询中要低。此外,他们还发现,更强的辩论会提高法官的准确性,尽管与之前的研究相比,提高幅度不大。

论文链接:
https://arxiv.org/abs/2407.04622

10.卡内基梅隆大学提出多模式基础模型整体评估 HEMM

多模态基础模型可以综合处理文本、图像、视频、音频和其他感官模态,在现实世界的各种应用中得到越来越广泛的使用。然而,考虑到可能的建模决策、任务和领域的范围,描述和研究多模态基础模型的进展具有挑战性。

在这项工作中,来自卡内基梅隆大学的研究团队提出了多模态模型整体评估(HEMM),从基础技能、信息流和真实世界使用案例三个维度系统地评估多模态基础模型的能力。基础多模态技能是解决问题所需的内部能力,如学习跨模态交互、细粒度对齐、多步骤推理以及处理外部知识的能力。信息流研究多模态内容如何在任务过程中通过查询、翻译、编辑和融合发生变化。使用案例涵盖现实世界中多媒体、情感计算、自然科学、医疗保健和人机交互应用中带来的特定领域挑战。

通过对 HEMM 中的 30 个任务进行综合实验,他们(1)确定了对当今模型构成挑战的关键数据集维度(如基础技能、信息流和使用案例),(2)提炼出了不同建模维度(如规模、预训练数据、多模态对齐、预训练和指令微调目标)如何影响性能的性能趋势。

论文链接:
https://arxiv.org/abs/2407.03418
GitHub 地址:
https://github.com/pliang279/HEMM

11.大语言模型中的推理:几何视角

大语言模型(LLM)在现实世界应用中的发展关键在于增强其推理能力。在这项工作中,来自 Tenyx 的研究团队通过对 LLM 的几何理解来探索其推理能力。

他们在 LLM 的表达能力与其自注意力图谱的密度之间建立了联系。分析结果表明,这些图谱的密度定义了 MLP 块输入的内在维度。他们通过理论分析和示例证明,更高的内在维度意味着更强的 LLM 表达能力。他们进一步提供了经验证据,将这一几何框架与近期旨在增强 LLM 推理能力的方法的进展联系起来。

论文链接:
https://arxiv.org/abs/2407.02678

12.快手团队推出高效人像动画生成框架 LivePortrait

“肖像动画”(Portrait Animation)旨在从单一源图像中合成逼真的视频,并将其作为外观参考,而运动(即面部表情和头部姿势)则来自驱动视频、音频、文本或生成。

来自快手的研究团队没有采用主流的基于扩散的方法,而是探索并扩展了基于隐式关键点框架的潜力,从而有效地平衡了计算效率和可控性。在此基础上,他们开发了一个视频驱动的肖像动画框架——LivePortrait,其重点在于更好的泛化、可控性和实际使用效率。为了提高生成质量和泛化能力,他们将训练数据扩展到约 6900 万高质量帧,采用了图像视频混合训练策略,升级了网络架构,并设计了更好的运动转换和优化目标。

此外,他们还发现紧凑的隐式关键点可以有效地表示一种混合形式,并提出了一个拼接模块和两个重定向模块,这些模块利用了计算开销几乎可以忽略不计的小型 MLP,从而增强了可控性。实验结果表明,与基于扩散的方法相比,该框架更加有效。在使用 PyTorch 的 RTX 4090 GPU 上,生成速度达到了 12.8ms。

论文链接:
https://arxiv.org/abs/2407.03168
项目地址:
https://liveportrait.github.io/

  • 14
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值