大模型日报｜今日必读的6篇大模型论文

本文链接：https://blog.csdn.net/AMiner2006/article/details/137021661

本文概述了英伟达的LATTE3D在3D生成速度和质量上的改进，以及上海AILab的InternVideo2在视频处理领域的突破。UC伯克利的研究展示了LLM2LLM的数据增强策略，而微软的SiMBA则在序列建模上超越Mamba。亚马逊的VidLA解决了视频语言对齐问题，而ThemeStation提供了主题感知的3D到3D生成解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

请添加图片描述

大家好，今日必读的大模型论文来啦！

1.英伟达提出LATTE3D：更快、更好的“文生3D”方法

近来，由文本到 3D 生成的方法可以生成令人印象深刻的 3D 效果，但这个过程需要耗时的优化过程，每个提示（prompt）可能需要一个小时。为了改善这种现象，ATT3D 等摊销方法可同时优化多个提示，从而提高效率，实现快速的文本到 3D 合成。但是，这些方法无法捕捉高频几何和纹理细节，难以扩展到大型提示集，因此通用性较差。

为此，英伟达推出了 LATTE3D，在更大的提示集上实现了快速、高质量的生成。该方法的关键在于：1）建立一个可扩展的架构；2）在优化过程中，通过 3D 感知扩散先验、形状正则化和模型初始化来利用 3D 数据，从而实现对各种复杂训练提示的鲁棒性。

据介绍，LATTE3D 对神经场和纹理曲面生成进行了摊销，只需一次前向传递即可生成高度精细的纹理网格。

结果表明，该方法可在 400 毫秒内生成 3D 物体，并可通过快速测试时间优化进一步提高性能。

论文链接：
https://arxiv.org/abs/2403.15385
项目地址：
https://research.nvidia.com/labs/toronto-ai/LATTE3D/

2.好过GPT-4V，上海AI Lab推出视频基础模型InternVideo2

近日，上海 AI Lab 推出了一种新的视频基础模型（ViFM）——InternVideo2，该模型在动作识别、视频类文本任务和以视频为中心的对话方面达到了 SOTA。

这种模型采用渐进式训练范式，将遮蔽视频 token 重建、跨模态对比学习和下一个 token 预测等不同的自监督或弱监督学习框架统一起来，不同的训练阶段将引导该模型通过不同的前置任务捕捉不同层次的结构和语义信息。在数据层面，研究团队通过语义分割视频和生成视频-音频-语音字幕，优先考虑时空一致性，并对 InternVideo2 的数据和模型大小进行了扩展。

通过大量实验，该团队验证了此模型的有效性，并在 60 多项视频和音频任务中达到了 SOTA。值得注意的是，该模型在各种与视频相关的字幕、对话和长视频理解基准测试中的表现都优于其他模型，突出了其推理和理解长时间语境的能力。

论文链接：
https://arxiv.org/abs/2403.15377

3.UC伯克利新研究：利用迭代数据增强提升大模型

目前，预训练大型语言模型（LLM）是解决绝大多数自然语言处理任务的最先进方法。虽然现实世界中的许多应用仍需要微调才能达到令人满意的性能水平，但其中许多应用都处于低数据水平，这使得微调具有挑战性。

为了解决这个问题，UC 伯克利团队提出了 LLM2LLM，这是一种有针对性的迭代数据增强策略，它使用教师 LLM 来增强小型种子数据集，通过增强额外的数据来对特定任务进行微调。LLM2LLM 运行步骤如下：（1）在初始种子数据上微调基准学生 LLM 模型；（2）评估并提取模型出错的数据点；（3）使用教师 LLM 根据这些错误数据点生成合成数据，然后将其添加回训练数据中。这种方法放大了 LLM 在训练过程中预测错误的数据点信号，并将其重新整合到数据集中，以便 LLM 专注于更具挑战性的示例。

研究结果表明，LLM2LLM 显著提高了 LLM 在低数据机制中的性能，其表现优于传统的微调和其他数据增强基线。此外，LLM2LLM 还减少了对劳动密集型数据整理的依赖，有助于创建更具可扩展性和性能的 LLM 解决方案，使用户能够应对数据受限的领域和任务。

论文链接：
https://arxiv.org/abs/2403.15042
GitHub 地址：
https://github.com/SqueezeAILab/LLM2LLM

4.微软提出状态空间模型SiMBA：好于Mamba，接近Transformer

Transformer 已广泛采用注意力网络用于序列混合，采用 MLPs 进行通道混合，在实现跨领域突破方面发挥了关键作用。

然而，最近很多学者强调了注意力网络的问题，包括低感应偏差和与输入序列长度有关的二次复杂性。为解决上述问题，学者们提出了状态空间模型（SSM），如 S4 和其他模型（Hippo、Global Convolutions、liquid S4、LRU、Mega 和 Mamba），从而帮助处理更长的序列长度。例如，Mamba 虽然是最先进的 SSM，但在扩展到计算机视觉数据集的大型网络时存在稳定性问题。

为此，微软团队提出了新架构 SiMBA ，将 Einstein FFT（EinFFT）引入，通过特定的特征值计算进行信道建模，并使用 Mamba 块进行序列建模。

基于图像和时间序列基准进行的广泛性能研究表明，SiMBA 的性能优于现有的 SSM，缩小了与最先进 transformer 的性能差距。值得注意的是，SiMBA 在 ImageNet 和迁移学习基准（如 Stanford Car 和 Flower）、任务学习基准以及七个时间序列基准数据集上取得了 SOTA。

论文链接：
https://arxiv.org/abs/2403.15360

5.亚马逊提出大规模视频语言对齐方法VidLA

传统的视频语言对齐方法存在两大局限。首先，这些方法无法捕捉短程和长程时间的依赖性，它们通常采用复杂的分层深度网络架构，很难与现有的预训练图像-文本基础模型集成。

为了有效解决这一局限性，亚马逊研究团队提出了大规模视频语言对齐方法 VidLA，采用了简单的网络架构，并使用一组以分层方式在不同时间分辨率下运行的数据 token，从而考虑视频的时间分层性质。通过采用简单的双塔架构，能够用预先训练好的图像-文本基础模型来初始化视频-语言模型，从而提高最终性能。

其次，由于缺乏语义配准的大规模训练数据，现有的视频语言配准工作效果并不理想。为了克服这一问题，该团队利用 LLM 整理出了迄今为止最大的视频语言数据集，并提供了更好的视觉基础。与只包含短片的现有视频-文本数据集不同，该数据集丰富了不同时长的视频片段，从而帮助时间分层数据 token 在不同时间尺度上提取更好的表征。

实验结果表明，该团队提出的方法在多个检索基准（尤其是在较长的视频上）上取得了 SOTA，在分类基准上的表现也很有竞争力。

论文链接：
https://arxiv.org/abs/2403.14870

6.ThemeStation：多样化主题的可控3D到3D生成

现实世界的应用往往需要大量主题一致的 3D 资产。虽然在根据文本或图像创建一般 3D 内容方面取得了一些进展，但根据输入 3D 示例的共享主题合成定制 3D 资产仍然是一个具有挑战性的问题。

来自香港城市大学、上海 AI Lab 和南洋理工大学的研究团队提出了一种主题感知型的 3D 到 3D 生成方法—ThemeStation。ThemeStation 基于给定的几个示例合成定制的 3D 资产，有两个目标： 1）生成与给定范例主题一致的 3D 资产的统一性；2）生成具有高度变化的 3D 资产的多样性。

为此，研究团队设计了一个两阶段框架，首先绘制概念图，然后进行参考 3D 建模。他们也提出了一种新颖的双分数蒸馏（DSD）损失法，从而共同利用输入示例和合成概念图的先验。

广泛的实验和用户研究证实，ThemeStation 在生成多样化主题感知 3D 模型方面超越了之前的研究成果，也能实现各种应用，如可控的 3D 到 3D 生成。

论文链接：
https://arxiv.org/abs/2403.15383
项目地址：
https://3dthemestation.github.io/