大模型日报｜9 篇必读的大模型论文

本文链接：https://blog.csdn.net/AMiner2006/article/details/141955165

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

MIT 团队提出上下文归因方法 ContextCite

语言模型在生成回答时是如何使用提供的上下文信息的？我们能否推断出一个特定生成的陈述实际上是基于上下文，还是一个误解，或者完全是编造的？

为了帮助回答这些问题，麻省理工学院（MIT）团队提出了上下文归因问题：确定是上下文的哪些部分（如果有的话）导致模型生成了一个特定的陈述。然后，他们提出了一种简单且可扩展的上下文归因方法 ContextCite，它可以应用于任何现有的语言模型之上。

最后，他们通过三个应用展示了 ContextCite 的实用性：（1）帮助验证生成的陈述，（2）通过修剪上下文来提高回应的质量，（3）检测中毒攻击。

论文链接：
https://arxiv.org/abs/2409.00729
GitHub 地址：
https://github.com/MadryLab/context-cite

OD-VAE：用于改进潜在视频扩散模型的全维视频压缩器

变分自编码器（VAE）将视频压缩成潜在表示，是潜在视频扩散模型（LVDMs）的关键前置组件。在相同的重建质量下，VAE 对视频的压缩越充分，LVDMs 的效率就越高。然而，大多数 LVDMs 使用的是 2D 图像 VAE，其对视频的压缩仅限于空间维度，而在时间维度上往往被忽略。如何在 VAE 中执行视频的时间压缩以获得更简洁的潜在表示，同时保证准确的重建，这一问题很少被探索。

为了填补这一空白，来自北京大学和鹏城实验室的研究团队提出了一个全维度压缩 VAE，名为 OD-VAE，它可以在时间和空间上压缩视频。尽管 OD-VAE 更充分的压缩给视频重建带来了巨大的挑战，但通过他们的精心设计，它仍然可以实现高重建精度。为了在视频重建质量与压缩速度之间获得更好的权衡，他们介绍并分析了 OD-VAE 的四个变体。

此外，他们还设计了一种新颖的尾部初始化方法来更高效地训练 OD-VAE，并提出了一种新颖的推理策略，使 OD-VAE 能够处理任意长度的视频，同时只占用有限的 GPU 内存。在视频重建和基于 LVDM 的视频生成上的综合实验证明了他们提出方法的有效性和效率。

论文链接：
https://arxiv.org/abs/2409.01199
GitHub 地址：
https://github.com/PKU-YuanGroup/Open-Sora-Plan

Follow-Your-Canvas：基于扩散的更高分辨率的视频外绘

在这项工作中，来自腾讯和香港科技大学的研究团队及其合作者，探讨了利用广泛内容生成实现更高分辨率的视频外绘。他们指出现有方法在尝试大幅外绘视频时面临的常见问题：生成低质量内容以及 GPU 内存的限制。

为了解决这些挑战，他们提出了一个基于扩散的方法，称为“Follow-Your-Canvas”。该方法基于两个核心设计。首先，他们不是采用常见的“单次绘制”外绘方式，而是将任务分布在空间窗口上，并无缝地合并它们。这使他们能够外绘任意大小和分辨率的视频，而不受 GPU 内存的限制。其次，将源视频及其相对位置关系注入到每个窗口的生成过程中。这使得每个窗口内生成的空间布局与源视频协调一致。结合这两个设计，使他们能够在保持空间和时间一致性的同时，生成富含内容的高分辨率外绘视频。

Follow-Your-Canvas 在大规模视频外绘方面表现出色，例如从 512×512 到 1152×2048（9 倍），同时产生高质量且具有美感的成果。它在各种分辨率和规模设置中取得了最佳效果。

论文链接：
https://arxiv.org/abs/2409.01055
GitHub 地址：
https://github.com/mayuelala/FollowYourCanvas

Mini-Omni：首个用于实时语音交互的完全端到端开源模型

GPT-4o 实现了与人类的实时对话，展示了接近人类的自然流畅性。这种人机交互要求模型具有直接利用音频模态进行推理并以流式方式生成输出的能力。然而，这仍然超出了当前学术模型的能力范围，因为它们通常依赖于额外的 TTS 系统来进行语音合成，从而导致不理想的延迟。

在这项工作中，研究团队推出了一种基于音频的端到端对话模型 Mini-Omni，其能够进行实时语音交互。为了实现这一功能，他们提出了一种基于文本指令的语音生成方法，并在推理过程中采用 batch 并行策略，从而进一步提高性能。这一方法还有助于保留原始模型的语言能力，并将退化程度降到最低，从而使其他工作能够建立实时交互能力。他们称这种训练方法为“Any Model Can Talk”。

他们还推出了 VoiceAssistant-400K 数据集，用于微调针对语音输出进行优化的模型。据介绍，Mini-Omni 是第一个用于实时语音交互的完全端到端开源模型。

论文链接：
https://arxiv.org/abs/2408.16725
GitHub 地址：
https://github.com/gpt-omni/mini-omni

“金字塔”扩散模型：精细、大规模 3D 场景生成

扩散模型在生成 2D 图像和小型 3D 物体方面取得了显著效果。然而，将扩散模型应用于大规模 3D 场景的合成却鲜有探索。这主要是由于 3D 场景数据（尤其是室外场景）固有的复杂性和巨大的体积，以及综合真实世界数据集的有限性，使得训练一个稳定的场景扩散模型具有挑战性。

在这项工作中，来自西南交通大学、香港城市大学、加州大学莫塞德分校和英伟达的研究团队，探讨了如何利用从粗到细的范式有效生成大规模 3D 场景。他们提出了“金字塔离散扩散模型”（PDD）框架，其采用尺度变化的扩散模型，来逐步生成高质量的室外场景。

PDD 的实验结果证明了他们在无条件和有条件生成 3D 场景方面的成功探索。他们进一步展示了 PDD 模型的多尺度架构所带来的数据兼容性：在一个数据集上训练的 PDD 模型可以很容易地在另一个数据集上进行微调。

论文链接：
https://arxiv.org/abs/2311.12085
GitHub 地址：
https://github.com/yuhengliu02/pyramid-discrete-diffusion
项目地址：
https://yuheng.ink/project-page/pyramid-discrete-diffusion/

CURLoRA：大模型微调新方法，解决两大难题

在这项工作中，Muhammad Fawi 提出了一种微调大语言模型（LLM）的新方法——CURLoRA，其将 CUR 矩阵分解与低秩自适应（LoRA）结合，解决了 LLM 微调中的两个关键难题：减轻持续学习过程中的灾难性遗忘和减少可训练参数的数量。

他对 CUR 分解过程提出了一个修改方案，利用逆概率来选择列和行，作为隐式正则化，并将 U 矩阵初始化为零矩阵，仅对其进行微调。通过多个数据集的实验证明，CURLoRA 在减少灾难性遗忘方面优于标准 LoRA，在保持模型稳定性和跨任务性能的同时，显著减少了可训练参数的数量。

研究结果表明，与 LoRA 相比，CURLoRA 在不断微调的过程中，在保持基础模型的易错性分数不变的情况下，实现了非常好且稳定的任务准确性，尤其是在数据有限的情况下。

论文链接：
https://arxiv.org/abs/2408.14572
GitHub 地址：
https://github.com/MNoorFawi/curlora

VLM4Bio：评估视觉大语言模型在机体生物学领域的有效性

图像可以被用来记录地球生物的多样性，为加速机体生物学领域的科学发现提供了新的机遇，特别是随着视觉大语言模型（VLM）的出现。那么，预先训练好的视觉语言模型能否帮助科学家回答一系列与生物相关的问题，而无需额外的微调呢？

在这项工作中，来自弗吉尼亚理工大学的研究团队及其合作者，使用新数据集 VLM4Bio 评估了 12 种 SOTA VLM 在机体生物学领域的有效性，该数据集由 469K 个问答（QA）对组成，涉及 30K 张图片，分别来自鱼类、鸟类和蝴蝶这三类生物，涵盖五项生物相关任务。他们还探索了应用提示技术和推理幻觉测试对 VLM 性能的影响，为当前 SOTA VLM 利用图像回答生物相关问题的能力提供了新的启示。

论文链接：
https://arxiv.org/abs/2408.16176
GitHub 地址：
https://github.com/sammarfy/VLM4Bio

SciLitLLM：如何让 LLM 理解科学文献？

科学文献理解对于提取目标信息和获得洞察力至关重要，从而极大地推动科学发现。尽管大语言模型（LLM）取得了巨大成功，但它们在科学文献理解方面仍面临挑战，主要原因是：（1）缺乏科学知识；（2）不熟悉专门的科学任务。

为了开发专门用于科学文献理解的 LLM，来自深势科技、中国科学技术大学的研究团队提出了一种混合策略，将持续预训练（CPT）和监督微调（SFT）结合起来，以同时注入科学领域知识并增强特定领域任务的指令遵循能力。应用这一策略，他们推出了 SciLitLLM，专门用于科学文献理解。这些模型在科学文献理解基准测试中表现出良好的性能。

主要工作包括：(1) 提出了一个有效的框架，将 CPT 和 SFT 整合在一起，使 LLM 适应于科学文献理解，该框架也可以很容易地适用于其他领域； (2) 提出了一种基于 LLM 的合成方法来生成多样化和高质量的科学指令，从而产生了一种新的指令集SciLitIns，用于在代表性较低的科学领域中进行有监督的微调。

论文链接：
https://arxiv.org/abs/2408.15545

“文生图”新研究：同时实现身份保持和文本对齐

文本到图像个性化技术的最新进展使得高质量、可控的图像合成成为可能。然而，现有的方法仍难以在身份保持和文本对齐之间取得平衡。

来自中山大学和香港理工大学的研究团队认为：生成与提示对齐的图像需要对提示进行精确的语义理解，这涉及在 CLIP 文本编码器中准确处理新概念与其周围上下文 token 之间的交互。

为了解决这个问题，他们的目标是将新概念正确嵌入到文本编码器的输入嵌入空间中，从而实现与现有 token 的无缝整合。

他们提出了上下文正则化（Context Regularization，CoRe），通过正则化提示符中的上下文 token 来增强新概念文本嵌入的学习。这是因为只有正确学习了新概念的文本嵌入，文本编码器才能为上下文 token 提供适当的输出向量。CoRe 可应用于任意提示，而无需生成相应的图像，从而提高了所学文本嵌入的通用性。此外，CoRe 还可以作为一种测试时（test-time）优化技术，进一步提高特定提示的生成能力。

综合实验证明，这一方法在身份保持和文本对齐方面都优于几种基准方法。

论文链接：
https://arxiv.org/abs/2408.15914