大模型日报｜6篇必读的大模型论文

学术头条

于 2024-09-18 18:21:34 发布

阅读量670

点赞数 5

分类专栏：每日大模型论文文章标签： chatgpt 人工智能语言模型科技 agi

本文链接：https://blog.csdn.net/AMiner2006/article/details/142339956

版权

每日大模型论文专栏收录该内容

82 篇文章 88 订阅

订阅专栏

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.智源研究院推出“文生图”扩散模型 OmniGen

在这项工作中，来自北京智源人工智能研究院的研究团队推出了用于统一图像生成的新型扩散模型 OmniGen。与流行的扩散模型（如 Stable Diffusion）不同，OmniGen 不再需要 ControlNet 或 IP-Adapter 等附加模块来处理不同的控制条件。OmniGen 具有以下特点：

统一性：OmniGen 不仅展示了文本到图像的生成功能，而且还从根本上支持其他下游任务，如图像编辑、主题驱动生成和视觉条件生成。此外，OmniGen 还能处理经典的计算机视觉任务，将其转换为图像生成任务，如边缘检测和人体姿态识别。
简单性：OmniGen 的架构高度简化，无需额外的文本编码器。此外，与现有的扩散模型相比，OmniGen 对用户更加友好，通过指令即可完成复杂的任务，无需额外的预处理步骤（如人体姿态估计），从而大大简化了图像生成的工作流程。
知识转移性：通过统一格式的学习，OmniGen 能有效地在不同任务间转移知识，管理未见过的任务和领域，并展现出新颖的能力。

这篇论文还探索了模型的推理能力和思维链机制的潜在应用，是对通用图像生成模型的首次尝试，仍有一些问题尚未解决。

论文链接：
https://arxiv.org/abs/2409.11340
GitHub 地址：
https://github.com/VectorSpaceLab/OmniGen

2.媲美 GPT-4o！英伟达推出多模态大语言模型系列 NVLM 1.0

在这项工作中，英伟达研究团队推出了多模态大语言模型（LLM）系列 NVLM 1.0，其在视觉语言任务上取得了 SOTA，可与领先的专有模型（如 GPT-4o）和开放获取模型（如 Llama 3-V 405B 和 InternVL 2）相媲美。值得注意的是，经过多模态训练后，NVLM 1.0 的纯文本性能比其 LLM 骨干模型有所提高。

在模型设计方面，英伟达对纯解码器多模态 LLM（如 LLaVA）和基于交叉注意力的模型（如 Flamingo）进行了全面比较。基于这两种方法的优缺点，他们提出了一种新颖的架构，既提高了训练效率，又增强了多模态推理能力。此外，该公司还针对基于瓦片（tile）的动态高分辨率图像提出了一维瓦片标记设计，从而显著提高了多模态推理和 OCR 相关任务的性能。在训练数据方面，他们精心策划并提供了多模态预训练和监督微调数据集的详细信息。研究结果表明，在所有架构中，即使在预训练阶段，数据集的质量和任务多样性也比规模更为重要。

值得注意的是，他们为 NVLM-1.0 模型开发了生产级多模态，使其在视觉语言任务中表现出色，同时与 LLM 骨干相比，保持甚至提高了纯文本性能。为了实现这一目标，他们精心设计了一个高质量的纯文本数据集，并将其与大量多模态数学和推理数据整合到多模态训练中，从而增强了跨模态的数学和编码能力。

论文链接：
https://arxiv.org/abs/2409.11402
项目地址：
https://nvlm-project.github.io

3.MIT 推出 AgentTorch：将 ABM 扩展到数百万智能体

基于智能体（agent）的建模（ABM）试图通过模拟在环境中行动和互动的智能体集合来理解复杂系统的行为。它们的实用性要求在有效模拟百万规模种群的同时，捕捉真实的环境动态和自适应智能体行为。大语言模型（LLMs）的最新进展为通过使用 LLMs 作为智能体来增强ABMs提供了机会，LLMs 具有捕捉适应性行为的进一步潜力。然而，将 LLMs 用于大型群体的计算不可行性阻碍了它们的广泛应用。

在这项工作中，麻省理工学院媒体实验室推出了 AgentTorch——一个可以将 ABM 扩展到数百万智能体的框架，同时使用 LLMs 捕捉高分辨率智能体行为。他们将 LLM 作为 ABM 智能体的效用基准，探索模拟规模与个体智能体之间的权衡。他们比较了基于启发式和LLM智能体的不同智能体架构在预测疾病和失业率方面的性能。此外，他们还展示了 AgentTorch 在回顾、反事实和前瞻性分析方面的能力，强调了自适应智能体行为如何帮助克服政策设计中历史数据的局限性。AgentTorch 是一个开源项目，目前正在全球范围内积极用于政策制定和科学发现。

论文链接：
https://arxiv.org/abs/2409.10568
GitHub 地址：
https://github.com/AgentTorch/AgentTorch

4.OSV：只需一步，由图像生成高质量视频

视频扩散模型在生成高质量视频方面显示出巨大的潜力，因此越来越受到人们的关注。然而，其固有的迭代特性会导致大量的计算和时间成本。虽然人们一直在努力通过减少推理步骤（通过一致性蒸馏等技术）和 GAN 训练来加速视频扩散（这些方法在性能或训练稳定性方面往往存在不足）。

在这篇文章中，复旦大学、香港科技大学、香港中文大学及腾讯优图实验室的研究团队提出了一个两阶段训练框架，有效结合了一致性蒸馏和 GAN 训练，以应对这些挑战。此外，研究团队还提出了一种新颖的视频判别器设计，无需对视频潜变量进行解码，从而提高了最终性能。此模型只需一步就能生成高质量的视频，并能灵活地执行多步精炼以进一步提高性能。

在这项工作中，为应对这些挑战，来自复旦大学、香港科技大学、香港中文大学及腾讯优图实验室的研究团队提出了一个两阶段训练框架，有效结合了一致性蒸馏和 GAN 训练。此外，研究团队还提出了一种新颖的视频判别器设计，无需对视频潜变量进行解码，从而提高了最终性能。此模型只需一步就能生成高质量的视频，并能灵活地执行多步精炼，从而进一步提高性能。

在 OpenWebVid-1M 基准上进行的定量评估表明，此模型明显优于现有方法。值得注意的是，此模型的单步性能（FVD 171.15）超过了基于一致性蒸馏的方法 AnimateLCM 的 8 步性能（FVD 184.79），并接近高级 Stable Video Diffusion 的 25 步性能（FVD 156.94）。

论文链接：
https://arxiv.org/abs/2409.11367

5.英伟达推出 MAISI：用于合成成像的医学人工智能

医学成像分析面临着数据稀缺、标注成本高和隐私问题等挑战。为应对这些挑战，来自英伟达的研究团队及其合作者推出了用于合成成像的医学人工智能（MAISI），这是一种利用扩散模型生成合成三维计算机断层扫描（CT）图像的创新方法。MAISI 利用基础容积压缩网络和潜在扩散模型生成高分辨率 CT 图像（最大容积尺寸为 512 x 512 x 768），具有灵活的容积尺寸和体素间距。

通过结合 ControlNet，MAISI 可以将器官分割（包括 127 个解剖结构）作为附加条件进行处理，并生成可用于各种下游任务的精确标注合成图像。实验结果表明，MAISI 能够为不同区域和条件生成逼真、解剖准确的图像，这揭示了它在减轻合成数据挑战方面的巨大潜力。

论文链接：
https://arxiv.org/abs/2409.11169

6.Playground v3：利用深度融合 LLM 改进文本到图像对齐

Playground Research 团队推出了文本到图像模型 Playground v3 (PGv3)，其在多个测试基准中取得了 SOTA，在图形设计能力方面表现出色，并引入了新的功能。与依赖 T5 或 CLIP 文本编码器等预训练语言模型的传统文本到图像生成模型不同，此方法完全集成了大语言模型 (LLM)，并采用了一种新颖的结构，完全利用了纯解码器 LLM 的文本条件。此外，为了提高图像字幕质量，他们开发了一种内部字幕机，能够生成不同详细程度的字幕，丰富了文本结构的多样性。他们还引入了一个新的基准 CapsBench 来评估详细的图像字幕性能。

实验结果表明，PGv3 在文本提示、复杂推理和准确文本渲染方面表现出色。用户偏好研究表明，他们的模型在贴纸、海报和徽标设计等常见设计应用中具有超人的图形设计能力。此外，PGv3 还引入了新功能，包括精确的 RGB 颜色控制和强大的多语言理解能力。

论文链接：
https://arxiv.org/abs/2409.10695