英伟达发布NVLM 1.0：屠榜多模态任务，纯文本性能逆势提升

最新推荐文章于 2024-09-26 20:11:10 发布

OpenCSG

最新推荐文章于 2024-09-26 20:11:10 发布

阅读量254

点赞数 10

文章标签：人工智能

本文链接：https://blog.csdn.net/OpenCSG/article/details/142553575

版权

前沿科技速递🚀

随着文本大模型的发展，解码器架构已经成为文本处理任务的标准。然而，现有的多模态大模型架构却尚未统一，不同模型在选择 LLM 主干、视觉编码器以及训练数据上存在较大差异，且无法直接进行对比研究。为了解决这些问题，英伟达研究团队推出了 NVLM 1.0，通过创新的模型设计和数据处理方法，极大提升了多模态推理能力和训练效率。

来源：传神社区

01 模型简介

英伟达最近推出了NVLM 1.0，这是一款多模态大型语言模型，在视觉-语言任务上表现出色，能够与最强的闭源模型（如GPT-4o）以及开源模型（如LLaMA 3-V 405B 和 InternVL 2）相媲美。值得关注的是，NVLM 1.0 不仅在多模态任务中表现优异，甚至在纯文本任务上也有所突破。经过多模态训练后，NVLM 1.0 在文本任务中的表现相比其基础语言模型（LLM）主干有明显提升，特别是在数学和代码生成基准测试中，平均准确率提高了 4.3 个百分点。

NVLM 1.0 在处理多模态任务时，能够高效处理包括文本、图像和高分辨率视觉输入等多种形式的数据，大幅提升了 OCR、视觉问答（VQA）、文档理解等复杂任务的性能。同时，研究团队深入比较了纯解码器模型与交叉注意力模型的优缺点，提出了一种全新的架构设计，进一步优化了高分辨率图像处理的效率，确保了模型在纯文本任务中的表现不仅不下降，反而有所提高。

02 核心架构：三大模型设计

NVLM 1.0 包含三种不同的架构，分别是解码器模型（NVLM-D）、交叉注意力模型（NVLM-X）和混合模型（NVLM-H）。每种架构针对不同的任务需求进行优化：

NVLM-D：解码器架构该模型采用解码器架构，视觉信息通过多层感知机（MLP）转换为文本嵌入，并统一输入到LLM（大语言模型）中进行处理。解码器架构的特点是可以将所有输入（无论是图像还是文本）作为统一的token进行处理，因此特别适合OCR任务，能够准确识别图像中的文字信息。
NVLM-X：交叉注意力架构NVLM-X采用交叉注意力机制，在处理图像信息时通过专门的注意力层来读取视觉编码器的输出。该架构在处理高分辨率图像和视觉推理任务时效率更高，特别适合处理复杂的视觉问答、图表分析以及文档理解任务。
NVLM-H：混合架构NVLM-H结合了解码器和交叉注意力的优势，文本和缩略图通过解码器的自注意力机制处理，而详细的图像信息则通过交叉注意力机制处理。这种设计不仅保持了高效的计算性能，还增强了模型在高分辨率图像任务中的表现，是一个平衡性能和计算效率的最佳方案。