大模型日报｜8 篇必读的大模型论文

最新推荐文章于 2024-09-19 16:50:01 发布

AI大模型头条

最新推荐文章于 2024-09-19 16:50:01 发布

阅读量1.2k

点赞数 17

分类专栏：每日大模型论文文章标签： chatgpt 人工智能语言模型科技 agi

本文链接：https://blog.csdn.net/AMiner2006/article/details/141955048

版权

每日大模型论文专栏收录该内容

92 篇文章 98 订阅

订阅专栏

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

清华、智谱团队推出 LongCite：让 LLM 在长上下文问答中生成精细引用

尽管目前的长上下文大语言模型（LLM）在回答用户基于大量文本的问题时表现出了强大的能力，但由于其回答中缺乏引用（citation），使得用户很难验证，这导致了人们对其潜在幻觉的可信度的担忧。

在这项工作中，来自清华大学和智谱的研究团队旨在让长文本 LLM 生成具有细粒度句子级引用的回答，从而提高其忠实性和可验证性。他们首先介绍了 LongBench-Cite，这是一种自动基准，用于评估当前 LLM 在带引用的长上下文问答（LQAC）中的性能，显示出相当大的改进空间。

为此，他们提出了一种利用现成的 LLM 自动生成具有精确句子级引用的长上下文问答实例的新型管道 CoF（Coarse to Fine），并利用该管道构建了用于 LQAC 的大规模 SFT 数据集 LongCite-45k。最后，他们使用 LongCite-45k 数据集训练 LongCite-8B 和 LongCite-9B，成功使它们能够在单个输出中生成准确回复和细粒度句子级引用。

LongBench-Cite 上的评估结果表明，他们训练的模型在引用质量方面达到了 SOTA，超过了包括 GPT-4o 在内的先进专有模型。

论文链接：
https://arxiv.org/abs/2409.02897
GitHub 地址：
https://github.com/THUDM/LongCite

LongLLaVA：首个混合 Mamba 和 Transformer 的多模态大语言模型

扩展多模态大语言模型（MLLM）的长上下文能力对于视频理解、高分辨率图像理解和多模态智能体（agent）至关重要。这涉及一系列系统优化工作，包括模型架构、数据构建和训练策略，尤其要解决图像越多性能越差、计算成本越高等难题。

在这项工作中，来自香港中文大学、深圳大数据研究院的研究团队，将模型架构调整为 Mamba 和 Transformer 模块的混合体，在数据构建时考虑了多个图像之间的时间和空间依赖关系，并采用了渐进式训练策略。他们发布的 LongLLaVA（Long-Context Large Language and Vision Assistant）模型是第一个混合 MLLM，在效率和效果之间取得了更好的平衡。

LongLLaVA 不仅在各种基准测试中取得了具有竞争力的结果，而且还保持了高吞吐量和低内存消耗。特别是，它可以在单个 A100 80GB GPU 上处理近千幅图像，为各种任务展示了广阔的应用前景。

论文链接：
https://arxiv.org/abs/2409.02889
GitHub 地址：
https://github.com/FreedomIntelligence/LongLLaVA

OLMoE：100% 开放的混合专家语言模型

来自艾伦人工智能研究所、Contextual AI 的研究团队及其合作者，推出了一个完全开放的 SOTA 语言模型 OLMoE，它利用了稀疏混合专家（MoE）机制。

OLMoE-1B-7B 拥有 70 亿参数，但每个输入 token 仅使用 10 亿参数。他们在 5 万亿个 tokens 上对其进行预训练，并进一步创建了 OLMoE-1B-7B-Instruct。

他们的模型在性能上超越了所有具有相似激活参数的现有模型，甚至超过了如 Llama2-13B-Chat 和 DeepSeekMoE-16B 这样的大模型。

他们展示了关于 MoE 训练的各种实验，分析了该模型中的路由机制，显示出高度的专业化，并将他们工作的所有方面开源，包括模型权重、训练数据、代码和日志。

论文链接：
https://arxiv.org/abs/2409.02060
GitHub 地址：
https://github.com/allenai/OLMoE

LongRecipe：扩展 LLM 上下文窗口的高效训练策略

大语言模型（LLM）在处理长上下文任务时面临巨大挑战，这是由于它们在预训练期间有效上下文窗口大小有限，这限制了它们在扩展序列上的泛化能力。同时，通过后训练扩展 LLM 的上下文窗口非常耗费资源。

为了解决这一问题，来自新加坡国立大学的研究团队及其合作者提出了一种用于扩展 LLM 上下文窗口的高效训练策略 LongRecipe，包括影响性标记分析、位置索引转换和训练优化策略。

LongRecipe 能在保持训练效率的同时模拟长序列输入，并显著提高了模型对长距离依赖关系的理解。在三种类型的 LLM 上的实验表明，LongRecipe 可以在仅需要目标上下文窗口大小 30% 的情况下利用长序列，且与全序列训练相比减少了超过 85% 的计算训练资源。此外，LongRecipe 还保留了原始 LLM 在一般任务上的能力。最终，他们可以将开源 LLM 的有效上下文窗口从 8k 扩展到 128k，只需使用一个带有 80G 内存的单个 GPU 进行一天的专业训练，就能实现接近 GPT-4 的性能。

论文链接：
https://arxiv.org/abs/2409.00509
GitHub 地址：
https://github.com/zhiyuanhubj/LongRecipe

昆仑万维推出可播放音乐的 FLUX

昆仑万维推出了一种基于扩散的整流 Transformers 的简单扩展，用于文本到音乐生成，称为 FluxMusic。一般来说，随着先进 Flux1 模型的设计，他们将它转换到梅尔频谱的潜在 VAE 空间。这包括首先对双文本音乐流应用一系列独立的注意力，然后是一个堆叠的单一音乐流，用于去噪的片段预测。

他们使用了多个预训练的文本编码器来充分捕捉标题的语义信息以及推断的灵活性。在此过程中，结合时间步嵌入的粗略文本信息被用于调制机制中，而细粒度的文本细节则与音乐片段序列连接作为输入。

通过深入的研究，他们展示了优化架构下的整流流训练在文本到音乐任务上显著优于已建立的扩散方法，这一点通过各种自动指标和人类偏好评估得到了证明。

论文链接：
https://arxiv.org/abs/2409.00587
GitHub 地址：
https://github.com/feizc/FluxMusic

VIDEOLLAMB：采用递归记忆桥的长上下文视频理解

大规模视频语言模型最近的发展已经显示出实时规划和详细互动的显著潜力。然而，它们的高计算需求以及标注数据集的稀缺性限制了它们对学术研究人员的实用性。

为此，来自北京通用人工智能研究院、加州大学以及北京大学的研究团队提出了一个新颖的框架 VideoLLaMB，它利用桥接层中的时空记忆 token 对整个视频序列以及历史视觉数据进行编码，有效地保持了语义连续性并提高了各种任务下的模型性能。这种方法包括递归记忆 tokens 和一个 SceneTilling 算法，该算法将视频分割成独立的语义单元以保持语义完整性。

实证研究表明，VideoLLaMB 在现有视频语言模型中显著领先，其在三个 VideoQA 基准测试中比竞争对手高出 5.5 个百分点，在以自我为中心的规划任务中高出 2.06 个百分点。在 MVBench 上的综合结果显示，VideoLLaMB-7B 比之前的同级别 LLM 的 7B 模型取得了明显更好的结果。值得注意的是，即使视频长度增加至 8 倍，它也保持了与 PLLaVA 一样鲁棒的性能。

此外，在他们专门制定的 NIAVH 基准测试中的帧检索结果进一步验证了 VideoLLaMB 在准确识别长视频中特定帧的能力。他们的 SceneTilling 算法还使得直接生成流式视频字幕成为可能，无需额外的训练。在效率方面，VideoLLaMB 在训练时使用 16 帧，可以在单个英伟达 A100 GPU 上支持多达 320 帧，并具有线性的 GPU 内存扩展，确保了高性能和成本效益，从而为长视频语言模型在学术和应用领域奠定了新的基础。

论文链接：
https://arxiv.org/abs/2409.01071
GitHub 地址：
https://github.com/bigai-nlco/VideoLLaMB

LinFusion：1 个 GPU，1 分钟，16K 图像

现代扩散模型，尤其是那些使用基于 Transformer 的 UNet 进行去噪的模型，高度依赖自注意力操作来管理复杂的空间关系，从而实现了令人印象深刻的生成性能。然而，现有的范式在生成高分辨率视觉内容方面面临着重大挑战，因为它相对于空间 token 数量的时间和内存复杂度是二次方的。

为了解决这个限制，来自新加坡国立大学的研究团队提出了一种新颖的线性注意力机制作为替代方案。具体来说，他们从最近引入的具有线性复杂度的模型（如 Mamba、Mamba2 和 Gated Linear Attention）开始探索，并确定了两个关键特性——注意力归一化和非因果推理——这些特性提升了高分辨率视觉生成的性能。

基于这些洞察，他们提出了一种广义线性注意力范式，它作为广泛流行的线性 token 混合器的一种低秩近似。为了节省训练成本并更好地利用预训练模型，他们从预训练的 StableDiffusion（SD）初始化该模型并提炼知识。

结果发现，经过相对较少的训练后，提炼出的模型，即 LinFusion，在性能上与原始 SD 持平甚至更优，同时显著降低了时间和内存复杂度。在 SD-v1.5、SD-v2.1 和 SD-XL 上的广泛实验表明，LinFusion 提供了满意的零样本跨分辨率生成性能，能够生成如 16K 分辨率这样的高分辨率图像。此外，它与预训练的 SD 组件高度兼容，如 ControlNet 和 IP-Adapter，无需进行适配。

论文链接：
https://arxiv.org/abs/2409.02097
GitHub 地址：
https://github.com/Huage001/LinFusion

由 LLM 导演的组合式 3D 感知视频生成

通过使用强大的生成模型和大规模互联网数据，文本到视频生成领域已经取得了重大进展。然而，精确控制生成视频中个别概念，如特定角色的动作和外观以及视角的移动，仍然存在实质性的挑战。

为此，来自中国科学技术大学、微软亚洲研究院和上海交通大学的研究团队提出了一种新颖的范式，该范式分别以 3D 表示生成每个概念，然后使用大语言模型（LLM）和 2D 扩散模型的先验知识将它们组合起来。具体来说，给定一个输入文本 prompt，他们的方案包括三个阶段：1）他们利用 LLM 作为导演，首先将复杂的查询分解为几个子提示，这些子提示指示视频中的单个概念（比如，场景、物体、动作），然后让 LLM 调用预训练的专家模型以获取相应概念的 3D 表示；2）为了组合这些表示，他们提示多模态 LLM 生成关于物体轨迹的尺度和坐标的粗略指导；3）为了使生成的帧符合自然图像分布，他们进一步利用 2D 扩散先验，并使用分数蒸馏采样来细化组合。

广泛的实验表明，他们的方法可以从文本生成高保真视频，具有多样的动作和对每个概念的灵活控制。

论文链接：
https://arxiv.org/abs/2409.00558
项目地址：
https://www.microsoft.com/en-us/research/project/compositional-3d-aware-video-generation/