大模型日报｜今日必读的8篇大模型论文

最新推荐文章于 2024-07-18 15:53:23 发布

学术头条

最新推荐文章于 2024-07-18 15:53:23 发布

阅读量1k

点赞数 23

分类专栏：每日大模型论文文章标签：人工智能 chatgpt 语言模型 AIGC 机器学习

本文链接：https://blog.csdn.net/AMiner2006/article/details/136807983

版权

每日大模型论文专栏收录该内容

69 篇文章 75 订阅

订阅专栏

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.Pieter Abbeel团队最新研究：类人机器人学习基准HumanoidBench

类人机器人具有类似人类形态的灵活性和适应性，有助于协助人类应对各种环境和完成各种任务。然而，类人机器人的研究往往受制于昂贵而易损的硬件设置。

为了加速类人机器人的算法研究，UC 伯克利大牛 Pieter Abbeel 团队及其合作者提出了一个高维模拟机器人学习基准——HumanoidBench，其特点是类人机器人配备了灵巧的双手，可以完成各种具有挑战性的全身操纵和运动任务。

研究结果表明，最先进的强化学习算法在大多数任务中都难以胜任，而分层学习基线在鲁棒的底层策略（如行走或伸手）的支持下，却能取得优异的性能。通过提出 HumanoidBench，研究团队为机器人界提供了一个平台，从而确定类人机器人在解决各种任务时遇到的挑战，促进算法和想法的及时验证。

论文链接：
https://arxiv.org/abs/2403.10506
项目地址：
https://sferrazza.cc/humanoidbench_site/

2.苹果新研究：提高大模型的服务效率

为提高大型语言模型（LLMs）的服务效率，苹果研究团队提出了一种改进的推测解码方法。该方法结合了经典的双模型推测解码方法和最新的单模型方法 Medusa 两种成熟技术的优势。

据介绍，从 Medusa 中汲取灵感，该方法采用单模型策略进行推测解码。不过，该方法与众不同之处在于，它采用了一种具有循环依赖性设计的单个轻量级草稿头（draft head），在本质上类似于经典推测解码中使用的小型草稿模型，但没有完整 Transformer 架构的复杂性。由于采用了递归依赖关系，该方法可以使用波束搜索快速过滤掉草稿头中不需要的候选码。这种方法既有单一模型设计的简便性，又避免了在 Medusa 中仅为推理而创建依赖数据的树状注意力结构。研究团队在几个流行的开源语言模型上实证了该方法的有效性，并对采用这种方法所涉及的权衡进行了全面分析。

论文链接：
https://arxiv.org/abs/2403.09919

3.UC伯克利提出RAFT：根据特定领域的RAG微调语言模型

在大型文本数据集上预训练大型语言模型（LLM）现已成为一种标准模式。在许多下游应用中使用这些 LLM 时，通常会通过基于 RAG 的提示或微调将新知识（如时间关键新闻或私人领域知识）添加到预训练模型中。然而，模型获取此类新知识的最佳方法仍是一个未决问题。

为此，UC伯克利团队提出了检索增强微调法（RAFT），这是一种新的训练方法，可提高模型在“开卷”领域设置中回答问题的能力。在 RAFT 中，给定一个问题和一组检索到的文档，可以训练模型忽略那些无助于回答问题的文档（即干扰文档）。RAFT 通过逐字引用相关文档中有助于回答问题的正确序列来实现这一点。这与 RAFT 的思维链（CoT）式响应相结合，有助于提高模型的推理能力。

在特定领域的 RAG 中，RAFT 持续提高了模型在 PubMed、HotpotQA 和 Gorilla 数据集上的性能，为改进预训练 LLM 的域内 RAG 提供了一种后训练方法。

论文链接：
https://arxiv.org/abs/2403.10131

4.西湖大学新研究：可控的文本-3D生成

文本-3D、图像-3D 的生成任务受到了广泛关注，但两者之间一个重要但未充分开发的领域是可控文本-3D生成。

为此，来自西湖大学、浙江大学和同济大学的研究团队针对这一任务，提出了多视图控制网络（MVControl），这是一种新颖的神经网络架构，旨在通过整合额外的输入条件（如边缘、深度、法线和涂鸦图）来增强现有的预训练多视图扩散模型，其创新之处在于引入了一个调节模块，该模块利用局部和全局嵌入来控制基础扩散模型，而局部和全局嵌入是通过输入条件图像和摄像机姿势计算得出的。一旦经过训练，MVControl 就能为基于优化的 3D 生成提供 3D 扩散指导。

此外，他们还提出了一种高效的多阶段 3D 生成流水线，充分利用了近期大型重建模型和分数提炼算法的优势。在 MVControl 架构的基础上，他们采用了一种独特的混合扩散引导方法来指导优化过程。为了提高效率，他们采用了 3D 高斯表示法，而不是常用的隐式表示法。他们还使用了 SuGaR，这是一种将高斯绑定到网格三角形面上的混合表示法。这种方法缓解了 3D 高斯中几何形状不佳的问题，并能在网格上直接雕刻精细的几何形状。

大量实验证明，该方法实现了鲁棒的泛化，能够可控地生成高质量的 3D 内容。

论文链接：
https://arxiv.org/abs/2403.09981
项目地址：
https://lizhiqi49.github.io/MVControl/

5.斯坦福VideoAgent：以大型语言模型为代理理解长视频

长视频理解是计算机视觉领域的一项重大挑战，需要一个能够对长多模态序列进行推理的模型。受人类长视频理解认知过程的启发，斯坦福大学研究团队强调交互式推理和规划，而不是处理冗长视觉输入的能力。

他们提出了一种基于代理的新型系统—VideoAgent，它采用大型语言模型（LLMs）作为中心代理，反复识别和编译关键信息以回答问题，而视觉语言基础模型则作为翻译和检索视觉信息的工具。

在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中，VideoAgent 平均只使用了 8.4 和 8.2 帧，就实现了 54.1% 和 71.3% 的零样本准确率。这些结果表明，与目前最先进的方法相比，该方法具有更高的有效性和效率，凸显了基于代理的方法在推进长视频理解方面的潜力。

论文链接：
https://arxiv.org/abs/2403.10517

6.MusicHiFi：快速高保真立体声语音编码

基于扩散的音频和音乐生成模型通常通过构建音频的图像表示（如旋律谱图）生成音乐，然后使用相位重建模型或声码器将其转换为音频。然而，典型的声码器生成的单声道音频分辨率较低（如 16-24 kHz），这限制了其有效性。

来自罗切斯特大学、Adobe Research 的研究团队提出了一种高效的高保真立体声声码器 MusicHiFi。该方法采用了三个生成式对抗网络（GAN）的级联，将低分辨率的旋律谱图转换为音频，通过带宽扩展将高分辨率音频上采样，然后上混成立体声音频。

与之前的工作相比，该研究提出了：1）基于 GAN 的统一生成器和鉴别器架构，以及级联每个阶段的训练程序；2）新的快速、接近降采样兼容的带宽扩展模块；3）新的快速降混兼容的单声道到立体声上混器，确保输出中保留单声道内容。

评估结果显示，发现与过去的工作相比，该方法能获得相当或更好的音频质量、更好的空间化控制和更快的推理速度。

论文链接：
https://arxiv.org/abs/2403.10493
项目地址：
https://musichifi.github.io/web/

7.游戏智能体与大模型综述：方法、应用与挑战

当前，尽管学术界和产业界对语言模型和多模态模型兴趣浓厚，但有关其在不同影响场景中的能力和潜力的系统性评论却很少。

为此，来自北京智源人工智能研究院（BAAI）、中科院等机构的研究团队，对当前在复杂游戏场景中使用大模型的情况以及仍面临的挑战进行了深入研究。

研究团队试图系统地回顾现有的基于大模型的游戏智能体（LMA）架构，总结其共性、挑战和其他见解。此外，他们还提出了一个新的观点，即在游戏中推进大模型的未来研究途径。该研究希望能帮助研究人员清楚地了解这一领域，并对这一极具影响力的研究方向产生更多兴趣。

论文链接：
https://arxiv.org/abs/2403.10249
GitHub地址：
https://github.com/BAAI-Agents/GPA-LM

8.HawkEye：可理解和推理时间信息的视频-文本 LLM

视频-文本大语言模型（video-text LLMs）在回答简单视频中的问题和进行对话方面表现出色。然而，在复杂的长视频中，它们几乎无法理解和推理时间信息，而时间信息正是视频与图像之间最根本的区别。

来自北京大学、华为、北京通用人工智能研究院的研究团队提出了 HawkEye——一种能够以完全文本到文本的方式执行时态视频接地的视频-文本 LLM。为了收集适用于时态视频接地的训练数据，他们构建了 InternVid-G（一个具有段级标题和负跨度的大规模视频-文本语料库），并以此为视频-文本 LLM 提出了两个新的时间感知训练目标。此外，他们还提出了一种粗粒度方法来表示视频中的片段，与其他替代方法相比，这种方法更鲁棒，更易于 LLM 学习和跟踪。

实验结果表明，HawkEye 在时态视频接地方面更胜一筹，在其他视频-文本任务上也可与现有的视频-文本 LLM 相媲美，这验证了其卓越的视频-文本多模态理解能力。

论文链接：
https://arxiv.org/abs/2403.10228