多模态大型语言模型(MLLM)是人工智能领域的一次重大飞跃,它将视觉信息和语言信息结合起来,能够更好地理解和解释复杂的现实世界场景。 这些模型旨在观察、理解和推理视觉输入,使其在光学字符识别(OCR)和文档分析任务中发挥无价之宝的作用。 这些 MLLM 的核心在于它们的视觉编码器,可将图像转换为视觉标记,然后与文本嵌入进行整合。 这种整合使模型能够解释视觉输入并做出有效反应。 然而,设计和优化这些视觉编码器仍然是一项严峻的挑战,尤其是在处理需要精细视觉感知的高分辨率图像时。
MLLM 的开发面临着一些挑战,尤其是在提高视觉感知能力方面。 一个关键问题是出现幻觉,即模型根据视觉输入产生不准确或无意义的输出。 这个问题在需要高分辨率图像处理的任务中尤为突出,例如 OCR 和文档理解。 由于视觉编码器的设计以及用于整合视觉和文本数据的方法存在局限性,现有模型在处理这些任务时往往需要帮助。 此外,虽然目前许多 MLLM 采用了单一视觉编码器,但这种方法往往需要捕捉准确解读所需的全部视觉信息,从而导致错误和性能下降。
研究人员探索了各种提高 MLLM 性能的方法。 一种常见的方法是使用在大型数据集上预先训练好的单一视觉编码器,如 CLIP,这种编码器通常因其能够对齐视觉和文本表征而被选用。 不过,这种方法也有缺点,尤其是在处理高分辨率图像处理任务时。 另一种方法涉及复杂的融合策略,将来自多个编码器的视觉特征结合起来。 虽然这些方法可以提高性能,但往往需要大量的计算资源,而且有时只能在不同类型的视觉任务中提供一致的结果。 例如,Flamingo 和 LLaVA-HR 等模型就是为应对 MLLM 设计中的特定挑战而开发的。 然而,它们在效率和有效性方面仍有改进的余地。
来自英伟达™(NVIDIA®)、佐治亚理工学院、UMD 和香港理工大学的研究人员开发了 Eagle 系列 MLLM。 这种新方法通过对各种视觉编码器进行基准测试、尝试不同的融合策略以及逐步确定视觉专家的最佳组合,系统地探索了 MLLM 的设计空间。 研究人员介绍了一种方法,即简单地串联来自互补视觉编码器的视觉标记,其效果不亚于更复杂的混合架构。 这种方法既简化了设计过程,又能保持高性能。 他们引入了一个预对齐阶段,在整合非文本对齐的视觉专家与语言模型之前,先将它们对齐,从而提高模型的一致性和性能。
Eagle 系列机型(又称 NVEagle)包括几种针对不同任务和要求量身定制的变体。 这些型号有三个主要版本: Eagle-X5-7B、Eagle-X5-13B 和 Eagle-X5-13B-Chat。 7B 和 13B 型号专为通用视觉语言任务而设计,其中 13B 变体由于参数更大,功能更强。 13B-Chat 模型专门针对对话式人工智能进行了微调,非常适合需要基于视觉输入进行细微理解和交互的应用。
NVEagle 的突出特点之一是在视觉编码器中使用了混合专家(MoE),从而显著提高了视觉感知能力。 这种方法允许模型为特定任务动态选择最合适的视觉编码器,从而增强了处理和理解复杂视觉信息的能力。 NVEagle 模型已在 Hugging Face 上发布,供研究人员和开发人员使用。 该模型在从 OCR 和文档分析到视觉问题解答的各种基准测试中表现优异,因此此次发布凸显了该模型的多功能性和鲁棒性。
Eagle 模型在多个基准测试中都取得了优异的成绩。 例如,在 OCR 任务中,Eagle 模型在 OCRBench 上取得了 85.9 的平均分,超过了 InternVL 和 LLaVA-HR 等其他领先模型。 在评估模型根据图像中的文本回答问题的能力的 TextVQA 中,Eagle-X5 获得了 88.8 分,比竞争对手有了显著提高。 该模型在视觉问题解答任务(如 GQA)中也表现出色,获得了 65.7 分,证明了其处理复杂视觉输入的能力。 在 Eagle 模型(如 Pix2Struct 和 EVA-02)中引入额外的视觉专家后,在各种基准测试中的性能都得到了持续提升,包括在结合使用多个视觉编码器时,平均得分从 64.0 显著提高到 65.9。
总之,“Eagle” 系列模型解决了视觉感知中的许多关键难题。 研究人员通过系统地探索设计空间和优化多个视觉编码器的集成,创建了一个能够应对这些挑战的模型。 Eagle 模型通过精简高效的设计,在各种任务中实现了最先进的性能。 事实证明,使用简单而有效的融合策略,结合引入预对齐阶段,是提高 MLLM 性能的有力方法。