大模型日报｜8 篇必读的大模型论文-CSDN博客

本文链接：https://blog.csdn.net/AMiner2006/article/details/140643276

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

Falcon2-11B 技术报告

Technology Innovation Institute 推出了一个在超过五万亿 token 上训练的基础模型 Falcon2-11B 及其多模态版本 Falcon2-11B-vlm。他们介绍了在 Falcon2-11B 训练过程中的发现，该训练采用了多阶段方法，其中早期阶段根据上下文的长度进行区分，最后阶段则使用了高质量数据集。

此外，他们还报告了在训练中期将 batch 规模扩大一倍的效果，以及学习率对训练损失峰值的影响。基础模型的下游任务在既定基准上进行了评估，包括多语言和代码数据集。基础模型在所有任务中都表现出很强的泛化能力，这使其适合下游微调使用案例。

对于 Falcon2-11B-vlm，他们展示了其在多个基准上的表现，并表明与类似规模的开源模型相比，这一模型获得了更高的平均分。

论文链接：
https://arxiv.org/abs/2407.14885

苹果推出视频大语言模型 SlowFast-LaVA

苹果公司推出的 SlowFast-LaVA（简称 SF-LaVA）是一种无需训练的视频大语言模型（LLM），它可以在不超出常用 LLM 的 token 预算的情况下，同时捕捉详细的空间语义和长距离的时间上下文。

为此，模型采用了双流 SlowFast 输入设计，以有效的方式聚合采样视频帧的特征。具体来说，Slow 路径以较低的帧速率提取特征，同时尽可能多地保留空间细节（例如，使用 24x24 token）；Fast 路径以较高的帧速率运行，但使用较大的空间池化步长（例如，下采样 6 倍）来关注运动线索。因此，这种设计能够充分捕捉有利于理解视频细节的空间和时间特征。

实验结果表明，SF-LaVA 在各种视频任务中的表现都优于现有的免训练方法。在某些基准测试中，SF-LaVA 的性能可与在视频数据集上进行微调的 SOTA 视频 LLM 媲美，甚至更好。

论文链接：
https://arxiv.org/abs/2407.15841

谷歌推出可操纵的多目标微调通用框架 CLP

基于奖励的微调对于将语言政策与预期行为（如创造性和安全性）对齐至关重要。这方面的一个关键挑战是开发可操纵的语言模型，以灵活高效的方式权衡多个（相互冲突的）目标。

谷歌团队推出了一种针对多个目标对语言模型进行微调的通用框架 CLP。在多任务训练和参数高效微调技术的基础上，CLP 可以学习可操纵的模型，从而在推理时有效地权衡相互冲突的目标。值得注意的是，这并不需要训练或维护多个模型来实现不同目标之间的权衡。

一系列广泛的实验和分析表明，CLP 框架所学习的可操纵模型优于目前 SOTA 多目标微调方法，并在帕累托（Pareto）上占优势。

论文链接：
https://arxiv.org/abs/2407.15762

GET-Zero：用于零样本实体泛化的图形实体 transformer

来自斯坦福大学的研究团队推出了一种用于学习体现感知控制策略的模型架构和训练程序 GET-Zero，该架构无需重新训练即可立即适应新的硬件变化。

团队提出了图形实体 transformer（GET），它利用体现图的连接性作为注意力机制中的学习结构偏差。团队利用行为克隆技术，将特定实体专家策略中的演示数据提炼为shi’ti感知的 GET 模型，该模型以机器人的硬件配置为条件做出控制决策。

研究团队对一项灵巧的手部物体旋转任务进行了案例研究，使用了去掉关节和延长连接长度的四指机械手的不同配置。通过使用 GET 模型和自建模损失，GET-Zero 能够对图形结构和链接长度的未知变化进行零样本泛化，比基准方法提高了 20%。

论文链接：
https://arxiv.org/abs/2407.15002
GitHub链接：
https://github.com/real-stanford/get_zero
项目地址：
https://get-zero-paper.github.io/

浙大团队推出 Odyssey：让智能体掌握开放世界技能

最近的一些研究深入探讨了如何构建适用于开放世界具身环境（如 Minecraft）的通用型智能体。尽管取得了一些成果，但现有工作主要集中在解决基本的程序任务上，如收集材料和制作工具，并将获取钻石任务视为最终目标。这种局限性源于智能体可采取的行动范围较窄，要求它们从头开始学习有效的长远策略。因此，在开放世界中发现多样化的游戏机会变得极具挑战性。

为此，来自浙江大学和浙大城市学院的研究团队推出了一个新的框架 Odyssey，其能让基于大语言模型（LLM）的智能体掌握开放世界技能，探索广阔的 Minecraft 世界。

Odyssey 包括三个关键部分：(1) 带有开放世界技能库的交互式智能体，该技能库包括 40 种原始技能和 183 种组合技能。(2) 一个经过微调的 LLaMA-3 模型，该模型在一个大型 QA 数据集上经过训练，该数据集包含 390k+ 指令条目，这些指令条目来自 Minecraft Wiki。(3) 新的开放世界基准包括数千个长期规划任务、数十个动态即时规划任务和一个自主探索任务。

大量实验证明，Odyssey 框架能有效评估智能体的规划和探索能力。

论文链接：
https://arxiv.org/abs/2407.15325
GitHub链接：
https://github.com/zju-vipa/Odyssey

牛津团队推出零样本音频描述框架，无需额外训练

在这项工作中，来自牛津大学的研究团队旨在以无需训练的方式生成电影和电视剧的音频描述（AD），他们利用视觉语言模型（VLM）和大语言模型（LLM）为这项任务开发了视觉和文本 prompt 策略。

他们的贡献包括三个方面：(1) 证明了如果通过视觉指示直接 prompt 字符信息，VLM 可以成功地命名和指代字符，而无需任何微调；(2) 开发了一个分两个阶段生成 AD 的过程，第一阶段要求 VLM 全面描述视频，第二阶段利用 LLM 将密集的文本信息总结为一个简洁的 AD 句子；(3) 制定了一个新的电视音频描述数据集。

此方法被命名为 AutoAD-Zero，在生成电影和电视剧的 AD 方面表现出色，甚至可与某些根据真实AD 微调的模型相媲美，获得了 SOTA 级的 CRITIC 分数。

论文链接：
https://arxiv.org/abs/2407.15850
项目地址：
https://www.robots.ox.ac.uk/~vgg/research/autoad-zero/

LongVideoBench：长上下文交错视频语言理解基准

大型多模态模型（LMM）正在处理越来越长、越来越丰富的输入。尽管取得了进展，但很少有公共基准可用于衡量这种发展。

为了缩小这一差距，研究团队推出了 LongVideoBench，这是一个以长达一小时的视频语言交错输入为特色的问题解答基准。此基准包括 3763 个不同长度的网络收集视频及其字幕，涉及不同的主题，用于全面评估 LMM 在长期多模态理解方面的表现。

为此，团队将主要挑战解释为从长输入中准确检索和推理详细的多模态信息。因此，他们制定了一项新颖的视频 QA 任务，称为“引用推理”（referring reasoning）。具体来说，作为问题的一部分，它包含一个引用相关视频上下文的引用查询，称为引用上下文。然后，模型需要从参考上下文中推理出相关的视频细节。按照引用推理的范例，团队在 17 个细粒度类别中整理出了 6678 道由人类标注的多选题，为长视频理解建立了最全面的基准之一。

评估表明，LongVideoBench 即使对 SOAT 专有模型（如 GPT-4o、Gemini-1.5-Pro、GPT-4-Turbo）也提出了重大挑战，而开源模型的性能差距更大。此外，结果表明，只有当模型能够处理更多帧时，它们在基准测试中的性能才会提高，因此 LongVideoBench 被定位为评估未来一代长上下文 LMM 的重要基准。

论文链接：
https://arxiv.org/abs/2407.15754

Cinemo：利用运动扩散模型制作一致且可控的图像动画

扩散模型已在图像动画领域取得了长足的进步。然而，如何与输入静态图像的详细信息（如输入静态图像的风格、背景和对象）保持时空一致性，并在文本提示的引导下确保动画视频叙事的流畅性，仍然具有挑战性。

面对这一挑战，来自莫纳什大学、上海 AI Lab 和南京邮电大学的研究团队提出了 Cinemo，这是一种新颖的图像动画方法，旨在实现更好的运动可控性以及更强的时间一致性和流畅性。

总的来说，研究团队在 Cinemo 的训练和推理阶段提出了三种有效策略来实现他们的目标。在训练阶段，Cinemo 主要学习运动残差的分布，而不是通过运动扩散模型直接预测后续运动。此外，他们还提出了一种基于结构相似性指数的策略，使 Cinemo 能够更好地控制运动强度。在推理阶段，引入了一种基于离散余弦变换的噪声细化技术，以减轻运动突变。这三种策略使 Cinemo 能够产生高度一致、平滑和运动可控的结果。

与之前的方法相比，Cinemo 提供了更简单、更精确的用户可控性。通过与几种 SOTA 方法（包括商业工具和研究方法）在多个指标上的对比实验，证明了此方法的有效性和优越性。

论文链接：
https://arxiv.org/abs/2407.15642