大模型日报｜今日必读的 13 篇大模型论文

最新推荐文章于 2025-03-11 20:19:50 发布

AI大模型头条

最新推荐文章于 2025-03-11 20:19:50 发布

阅读量2.3k

点赞数 12

分类专栏：每日大模型论文文章标签：人工智能语言模型深度学习机器学习计算机视觉

本文链接：https://blog.csdn.net/AMiner2006/article/details/139123132

版权

每日大模型论文专栏收录该内容

175 篇文章

订阅专栏

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.清华团队推出 DisenStudio：可定制的多主体文本到视频生成

近来，在视频中生成定制内容受到越来越多的关注。然而，现有工作主要集中在为单个主体生成定制的文本到视频，当视频预计包含多个主体时，就会出现主体缺失和属性绑定问题。此外，现有模型难以将所需的动作分配给相应的主体（动作绑定问题），因此无法实现令人满意的多主体生成性能。

为了解决这些问题，来自清华大学的研究团队提出了一个新颖的框架 DisenStudio，其可以在每个主体只有少量图像的情况下，为定制的多个主体生成文本引导视频。

具体来说，DisenStudio 利用空间分离交叉注意机制增强了基于扩散的预训练文本到视频模型，从而将每个主体与所需的动作联系起来。然后，利用运动保留分离微调技术为多个主体定制模型，其中包括三种微调策略：多主体共现微调、屏蔽单主体微调和多主体运动保留微调。前两种策略能保证主体出现并保留其视觉属性，第三种策略则能帮助模型在对静态图像进行微调时保持时间运动生成能力。

大量实验证明，DisenStudio 在各种指标上都明显优于现有方法，可用作各种可控生成应用的强大工具。

论文链接：
https://arxiv.org/abs/2405.12796

2.在扩散世界模型中训练强化学习智能体

世界模型是一种很有前途的方法，可用于以安全、样本效率高的方式训练强化学习智能体。最新的世界模型主要通过离散潜变量序列来模拟环境动态。然而，这种压缩为紧凑的离散表示法可能会忽略对强化学习非常重要的视觉细节。与此同时，扩散模型已成为图像生成的主流方法，对离散潜变量建模的成熟方法提出了挑战。

在这一模式转变的推动下，来自日内瓦大学、爱丁堡大学和微软的研究团队推出了 DIAMOND（DIffusion As a Model Of eNvironment Dreams），这是一种在扩散世界模型中训练的强化学习智能体。

他们分析了使扩散适合世界建模所需的关键设计选择，并演示了改进视觉细节如何提高智能体性能。在竞争激烈的 Atari 100k 基准测试中，DIAMOND 获得了 1.46 的人类标准化平均分；这是完全在世界模型中训练的智能体的新最佳成绩。

论文链接：
https://arxiv.org/abs/2405.12399
GitHub 地址：
https://github.com/eloialonso/diamond

3.港中文推出基于 LLM 的多轮咨询虚拟医生系统 DrHouse

基于大型语言模型（LLM）的虚拟医生的最新进展证明，LLM 具有改变数字医疗的潜力。然而，目前的方法依赖于患者对症状的主观描述，导致误诊率上升。

认识到来自智能设备的日常数据的价值，来自香港中文大学和哥伦比亚大学的研究团队推出了一种新颖的基于 LLM 的多轮咨询虚拟医生系统 DrHouse，该系统有三个贡献：1）在诊断过程中利用了智能设备的传感器数据，提高了诊断的准确性和可靠性；2）利用不断更新的医学数据库，如 Up-to-Date 和 PubMed，确保模型始终处于诊断标准的前沿；3）引入了一种新颖的诊断算法，可同时评估潜在疾病及其可能性，从而促进更细致、更明智的医疗评估。

通过多轮互动，DrHouse 确定下一步措施，比如从智能设备获取日常数据或请求实验室测试，并逐步完善其诊断。在三个公共数据集和团队自己收集的数据集上进行的评估表明，与最先进的基线相比，DrHouse 的诊断准确率最多可提高 18.8%。一项由 32 人参与的用户研究结果表明，75% 的医学专家和 91.7% 的患者愿意使用 DrHouse。

论文链接：
https://arxiv.org/abs/2405.12541

4.MIT 新研究：通过跨层注意力减少 Transformer 键值缓存大小

键值（KV）缓存在加速基于 Transformer 的自回归大型语言模型（LLM）的解码过程中发挥着至关重要的作用。然而，在序列长度较长、批量较大的情况下，存储 KV 缓存所需的内存量可能会变得过大。

自 Transformer 发明以来，为减少 KV 缓存大小而发现的两种最有效的干预措施是多查询注意力（MQA）和分组查询注意力（GQA）。MQA 和 GQA 都修改了注意力块的设计，使多个查询头可以共享一个键/值头，从而将不同键/值头的数量减少了一大截，同时只将准确性降低到最低程度。

在这项工作中，来自麻省理工学院（MIT）的研究团队展示了通过在相邻层之间共享键和值头，进一步推进 MQA 的可能性，从而产生一种新的注意力设计——跨层注意力（CLA）。通过 CLA，他们发现可以将 KV 缓存的大小再减少 2 倍，同时保持与未修改 MQA 几乎相同的准确性。在从头开始训练 1B 参数和 3B 参数模型的实验中，CLA 在传统 MQA 的内存/准确率权衡上提供了帕累托改进，使推理的序列长度更长、batch 规模更大，这在其他情况下是不可能实现的。

论文链接：
https://arxiv.org/abs/2405.12981

5.Mammo-CLIP：首个在乳房 X 光筛查报告训练的视觉语言基础模型

在乳腺癌检测的计算机辅助诊断（CAD）中，缺乏大量多样的训练数据一直是阻碍该系统应用的问题之一。最近，通过视觉语言模型（VLM）对大规模图像文本数据集进行预训练部分解决了计算机视觉（CV）的鲁棒性和数据效率问题。

来自波士顿大学、匹兹堡大学的研究团队提出了 Mammo-CLIP，它是第一个在大量乳房 X 光筛查报告对上进行预训练的 VLM，解决了数据集多样性和规模的难题。他们在两个公开数据集上进行的实验表明，在对乳腺癌检测至关重要的各种乳腺 X 线照片属性进行分类和定位方面，Mammo-CLIP 表现出了很强的性能，展现出了与 CV 中的 CLIP 相似的数据效率和鲁棒性。

为提供乳腺 X 射线照相报告中具有句子级粒度的表征空间解释，他们还提出了一种名为 Mammo-FActOR 的特征归属方法。

论文链接：
https://arxiv.org/abs/2405.12255
GitHub 地址：
https://github.com/batmanlab/Mammo-CLIP

6.OmniGlue：首个以泛化为核心原则设计的可学习图像匹配器

在图像匹配领域，新型可学习特征匹配技术不断涌现，在传统基准测试中的性能不断提高。然而，我们的调查显示，尽管取得了这些成绩，但由于它们对新图像领域的泛化能力有限，因此它们在现实世界中的应用潜力受到了限制。

在这项工作中，来自德州大学奥斯汀分校和 Google Research 的研究团队提出了首个以泛化为核心原则设计的可学习图像匹配器——OmniGlue。OmniGlue 利用来自视觉基础模型的广泛知识来指导特征匹配过程，从而提高了对训练时未见领域的泛化能力。此外，他们还提出了一种新颖的关键点位置引导注意力机制，它能将空间和外观信息分离开来，从而增强匹配描述符。

他们在 7 个不同图像领域的数据集上进行了全面的实验，包括场景级图像、以物体为中心的图像和航空图像。与直接可比的参考模型相比，OmniGlue 的新组件在未见域中的相对提升为 20.9%，同时也比最近的 LightGlue 方法高出 9.5%。

论文链接：
https://arxiv.org/abs/2405.12979
项目地址：
https://hwjiang1510.github.io/OmniGlue/

7.Diff-BGM：为你的视频生成一段背景音乐

编辑视频时，一段动听的背景音乐必不可少。然而，视频背景音乐生成任务面临着一些挑战，例如缺乏合适的训练数据集，难以灵活控制音乐生成过程并按顺序对齐视频和音乐。

在这项工作中，来自北京大学、北京电子科技学院的研究团队首先提出了一个高质量的音乐视频数据集 BGM909，该数据集具有详细的标注和样本检测功能，可提供视频和音乐的多模态信息。然后，他们提出了评估音乐质量的评价指标，包括音乐多样性和音乐与视频之间的匹配度以及检索精度指标。最后，他们提出了 Diff-BGM 框架来自动生成给定视频的背景音乐，在生成过程中使用不同信号来控制音乐的不同方面，即使用动态视频特征来控制音乐节奏，使用语义特征来控制旋律和氛围。他们建议，通过引入分段感知交叉注意层，按顺序对齐视频和音乐。实验验证了这一方法的有效性。

论文链接：
https://arxiv.org/abs/2405.11913
GitHub 地址：
https://github.com/sizhelee/Diff-BGM

8.Images that Sound：在一张画布上合成图像和声音

频谱图是声音的 2D 表现形式，看起来与我们视觉世界中的图像截然不同。而自然图像在作为频谱图播放时，会发出不自然的声音。

在这项工作中，来自密歇根大学的研究团队展示了合成频谱图的可能性，这种频谱图同时具有自然图像的外观和自然音频的声音。他们称这些频谱图为有声图像（images that sound）。他们的方法简单且是零样本的，并利用在共享潜空间中运行的预训练文本到图像和文本到频谱图扩散模型。在反向处理过程中，他们同时使用音频和图像扩散模型对有噪声的潜像进行去噪处理，从而得到两种模型下都可能存在的样本。

通过定量评估和感知研究，这一方法成功地生成了与所需音频提示一致的频谱图，同时还采用了所需图像提示的视觉外观。

论文链接：
https://arxiv.org/abs/2405.12221
项目地址：
https://ificl.github.io/images-that-sound/

9.视频编辑新方法：利用文生图扩散模型处理时空切片

文本到图像（T2I）扩散模型在图像合成和编辑方面取得了最先进的成果。然而，在视频剪辑中利用这种预训练模型被认为是一项重大挑战。许多现有研究都试图通过像素空间或深度特征之间的显式对应机制来加强编辑视频的时间一致性。然而，这些方法都难以应对强烈的非刚性运动。

在这项工作中，来自以色列理工学院的研究团队基于自然视频的时空切片与自然图像表现出相似特征的观察，提出了一种根本不同的方法。因此，通常只用作视频帧先验的 T2I 扩散模型，通过应用于时空切片，也可以作为增强时间一致性的强先验。

基于这一观点，他们提出了一种基于文本的视频编辑方法 Slicedit，该方法利用预训练的 T2I 扩散模型来处理空间和时空切片，生成的视频既保留了原始视频的结构和运动，又符合目标文本。广泛的实验证明了 Slicedit 编辑各种真实世界视频的能力。

论文链接：
https://arxiv.org/abs/2405.12211
项目地址：
https://matankleiner.github.io/slicedit/

10.Motion Avatar：生成具有任意运动的人类和动物头像

近年来，由于 3D 头像和动作在电影制作、视频游戏、AR/VR 和人机交互等领域的广泛应用，人们对创建 3D 头像和动作产生了浓厚的兴趣。然而，目前的工作主要集中在单独生成 3D 头像网格或制作动作序列上，将这两方面整合在一起被证明是一项长期的挑战。此外，虽然头像和动作生成主要针对人类，但由于训练数据和方法不足，将这些技术推广到动物身上仍是一项重大挑战。

在这项工作中，来自澳大利亚国立大学、悉尼科技大学和乐卓博大学的研究团队及其合作者，提出了三个主要贡献。首先，他们提出了一种名为 Motion Avatar 的基于智能体的新方法，该方法允许通过文本查询自动生成高质量的可定制人类和动物运动头像。其次，他们介绍了一种 LLM planner，它可以协调动作和头像的生成，将判别式规划转变为可定制的问答方式。最后，他们介绍了一个名为 Zoo-300K 的动物动作数据集，该数据集包含 65 个动物类别中约 30 万对文本-动作配对。

论文链接：
https://arxiv.org/abs/2405.11286
项目地址：
https://steve-zeyu-zhang.github.io/MotionAvatar/

11.用于概念驱动文生图的个性化残差

为提高文本到图像扩散模型的高效概念驱动生成，来自乔治亚理工学院和 Adobe 的研究团队提出了个性化残差和局部注意力引导采样方法。

该方法首先通过冻结预训练文本条件扩散模型的权重和学习模型层中一小部分的低秩残差来表示概念。然后，基于残差的方法可直接应用一种新的采样技术，该技术仅在通过交叉注意力定位概念的区域应用学习到的残差，而在所有其他区域应用原始扩散权重。因此，本地化采样将学习到的概念特征与底层扩散模型的现有生成先验相结合。

研究表明，与之前的模型相比，无需使用正则化图像，只需较少的参数，个性化残差就能在单个 GPU 上以约 3 分钟的时间有效捕捉到概念的特征，而且局部采样允许将原始模型作为图像大部分区域的强先验。

论文链接：
https://arxiv.org/abs/2405.12978
项目地址：
https://cusuh.github.io/personalized-residuals/

12.综述：Transformer 在触觉感知任务中的应用

Transformer 模型最初在自然语言处理领域取得了巨大成功，最近又在触觉感知领域显示出巨大的应用潜力。本综述旨在全面概述 Transformer 在触觉技术中的应用和发展。

来自北京交通大学和北京邮电大学的研究团队首先介绍 Transformer 成功背后的两个基本概念：自注意力机制和大规模预训练。然后，他们深入探讨了 Transformer 在各种触觉任务中的应用，包括但不限于物体识别、跨模态生成和物体操作，并简要总结了核心方法、性能基准和设计亮点。最后，他们提出了进一步研究和未来工作的潜在领域，旨在激发社区内的更多兴趣，应对现有挑战，并鼓励在触觉领域使用 Transformer 模型。

论文链接：
https://arxiv.org/abs/2405.12779

13.综述：当大模型遇见 NLP

虽然大型语言模型（LLMs）（如 ChatGPT）在自然语言处理（NLP）任务中表现出了令人印象深刻的能力，但对其在这一领域的潜力的系统性研究在很大程度上仍未得到开发。

在这项工作中，来自中南大学、哈尔滨工业大学、香港大学、清华大学和伊利诺伊大学芝加哥分校的研究团队，旨在通过探讨以下问题来填补这一空白：1）目前文献中是如何将 LLMs 应用于 NLP 任务的？2）传统的 NLP 任务是否已经用 LLMs 解决？3）LLMs 在 NLP 中的前景如何？

为了回答这些问题，他们首先对 LLMs 在 NLP 中的应用进行了全面概述。具体来说，他们首先介绍了一种统一的分类法，包括（1）参数冻结应用和（2）参数微调应用，从而为理解 LLMs 在 NLP 中的当前进展提供一个统一的视角。此外，他们还总结了新的前沿领域和相关挑战，旨在激发更多突破性进展。

论文链接：
https://arxiv.org/abs/2405.12819