统一的多模态文字理解与生成大模型

最新推荐文章于 2025-04-01 11:21:53 发布

程序猿李巡天

最新推荐文章于 2025-04-01 11:21:53 发布

阅读量1.4k

点赞数 11

文章标签：人工智能语言模型自然语言处理 prompt 架构

本文链接：https://blog.csdn.net/m0_59235945/article/details/142861964

版权

本文介绍NeurIPS 2024录用论文“Harmonizing Visual Text Comprehension and Generation”的主要工作。这篇文章提出了首个OCR领域的大一统多模态文字理解与生成大模型，即TextHarmony。TextHarmony不仅精通视觉文本的感知（文字检测识别等）、理解（KIE、VQA等）和生成（视觉文字生成、编辑、抹除等），而且在单一模型中实现了视觉与语言模态生成的和谐统一。

一、研究背景

如何让机器像人类一样感知、理解、编辑和生成图像中的文字，一直是人工智能领域的热点问题。当前视觉文字领域的大模型研究专注于单模型生成任务，单模态生成的大模型虽然统一了某些任务，但无法做到OCR领域中大部分任务的大一统，比如Monkey等VLM只能处理文字检测、识别、VQA等文本模态生成的任务，无法胜任文字图像生成、抹除、编辑等图像模态生成的任务，基于Diffusion Model的图像生成模型如AnyText则相反，OCR领域中的多模态生成统一大模型仍然是一个空白。此外，研究人员在探索中发现，在多模态生成大模型中，视觉与语言模态之间的固有不一致性，往往导致性能的显著下降。面对这种不一致性时，最近的一些工作依赖于特定模态的监督微调，从而产生文字生成和图片生成两个不同的模型权重。这种做法违背了统一视觉理解与生成的初衷。为了解决这些难题，作者提出了一种创新的多模态生成模型——TextHarmony。

二、关键问题

TextHarmony的核心贡献在于其能够统一视觉文本的理解和生成。在以往的研究中，理解与生成任务往往由不同的模型分别处理。例如，一些模型专注于从图像中检测和识别文字，而另一些模型则致力于根据文字描述生成、编辑图像。TextHarmony通过整合这两大类生成模型，使得模型能够同时进行视觉文字理解和视觉文字生成，从而统一了OCR领域中的大部分任务。

然而，研究人员发现，视觉理解和视觉生成之间具有较大的差异，直接将他们整合在一个模型中，会产生严重的模态不一致问题。具体地，多模态生成模型在文本生成（视觉感知、理解）和图像生成上，相比单模态生成模型（视觉理解模型或者图像生成模型）效果有比较明显的劣化。

如图所示，在文本生成任务上，多模态生成模型相比单模态生成模型效果降低5%，在图像生成上效果则最高降低了8%。研究人员提出的TextHarmony则大大缓解了模态不一致问题，其在文本生成和图像生成任务上的指标，都较为接近单模态生成的专家模型。

三、方法原理简述

TextHarmony主要是基于 ViT+MLLM+Diffusion Model 的结构，其中ViT负责将图像压缩为视觉Token序列。MLLM的输入是视觉Token与文本Token的交叉序列，其输出Token分为两种：（1）文本Token将会被送入一个文本解码器，解码为文本输出；（2）视觉token将会和文本Token拼接，一起作为Diffusion Model的Condition（条件），引导Diffusion Model生成目标图像。通过结合多模态大语言模型和扩散模型，TextHarmony实现了多模态内容的理解与生成。

为了缓解训练过程中的模态不一致问题，研究者提出Slide-LoRA，通过动态聚合模态特定的和模态无关的LoRA（Low-Rank Adaptation）专家，来实现在单一模型中部分解耦图像和文本的生成空间。具体地，Slide-LoRA主要由一个动态门控网络和三个低秩分解模块组成。其中，模态特定LoRA专家专门处理与特定模态（视觉或语言）相关的生成任务，使得模型能够在各自的空间中更有效地学习和生成，而模态无关的LoRA专家处理与两种模态都相关的通用特征，增强了模型对跨模态共享知识的学习。动态门控网络根据输入的文本和图像特征，动态决定在生成过程中使用哪些模态特定的专家和模态无关的专家，从而实现对不同模态生成任务的适应。

TextHarmony的训练分为两阶段，一阶段使用 MARIO-LAION 和 DocStruct4M 等图文对来预训练模型的对齐模块（Perceiver Resampler）和图像解码器，使得模型具备初步的文本生成与图像生成能力。二阶段使用视觉文本的生成、编辑、理解、感知四个类别的数据来做统一微调，这个阶段ViT、对齐模块、图像解码器和Slide-LoRA都被放开，从而学习到统一的多模态理解与生成能力。

四、主要实验及可视化

研究者在视觉文本场景对TextHarmony做了四个方面的对比实验：理解、感知、生成与编辑。

视觉文本理解：TextHarmony大幅度超过了多模态生成模型，并且接近Monkey等文字理解专家模型。

视觉文本感知：TextHarmony在OCR定位任务上超过了TGDoc、DocOwl1.5等模型。

视觉文本编辑与生成：TextHarmony大幅度超过了所有的多模态理解模型，并且接近TextDiffuser2等专家模型。

文字生成效果对比

文字编辑效果对比

文字图像感知与理解可视化

五、总结

TextHarmony是首个OCR领域的多模态生成模型，统一了视觉文本理解和生成任务。针对多模态生成模型的模态不一致问题，研究者提出Slide-LoRA模块，在单一模型中实现了视觉与语言模态的和谐统一。TextHarmony展现出了优秀的视觉文字感知、理解、生成和编辑能力，为依赖于视觉文本理解和生成的复杂交互任务提供了革命性的前景。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述