本文介绍NeurIPS 2024录用论文“Harmonizing Visual Text Comprehension and Generation”的主要工作。这篇文章提出了首个OCR领域的大一统多模态文字理解与生成大模型,即TextHarmony。TextHarmony不仅精通视觉文本的感知(文字检测识别等)、理解(KIE、VQA等)和生成(视觉文字生成、编辑、抹除等),而且在单一模型中实现了视觉与语言模态生成的和谐统一。
一、研究背景
如何让机器像人类一样感知、理解、编辑和生成图像中的文字,一直是人工智能领域的热点问题。当前视觉文字领域的大模型研究专注于单模型生成任务,单模态生成的大模型虽然统一了某些任务,但无法做到OCR领域中大部分任务的大一统,比如Monkey等VLM只能处理文字检测、识别、VQA等文本模态生成的任务,无法胜任文字图像生成、抹除、编辑等图像模态生成的任务,基于Diffusion Model的图像生成模型如AnyText则相反,OCR领域中的多模态生成统一大模型仍然是一个空白。此外,研究人员在探索中发现,在多模态生成大模型中,视觉与语言模态之间的固有不一致性,往往导致性能的显著下降。面对这种不一致性时,最近的一些工作依赖于特定模态的监督微调,从而产生文字生成和图片生成两个不同的模型权重。这种做法违背了统一视觉理解与生成的初衷。为了解决这些难题,作者提出了一种创新的多模态生成模型——TextHarmony。
二、关键问题
TextHarmony的核心贡献在于其能够统一视觉文本的理解和生成。在以往的研究中,理解与生成任务往往由不同的模型分别处理。例如,一些模型专注于从图像中检测和识别文字,而另一些模型则致力于根据文字描述生成、编辑图像。TextHarmony通过整合这两大类生成模型,使得模型能够同时进行视觉文字理解和视觉文字生成,从而统一了OCR领域中的大部分任务。
然而,研究人员发现,视觉理解和视觉生成之间具有较大的差异,直接将他们整合在一个模型中,会产生严重的模态不一致问题。具体地,多模态生成模型在文本生成(视觉感知、理解)和图像生成上,相比单模态生成模型(视觉理解模型或者图像生成模型)效果有比较明显的劣化。
如图所示,在文本生成任务上,多模态生成模型相比单模态生成模型效果降低5%,在图像生成上效果则最高降低了8%。研究人员提出的TextHarmony则大大缓解了模态不一致问题,其在文本生成和图像生成任务上的指标,都较为接近单模态生成的专家模型。
三、方法原理简述
TextHarmony主要是基于 ViT+MLLM+Diffusion Model 的结构,其中ViT负责将图像压缩为视觉Token序列。MLLM的输入是视觉Token与文本Token的交叉序列,其输出Token分为两种:(1)文本Token将会被送入一个文本解码器,解码为文本输出;(2)视觉token将会和文本Token拼接,一起作为Diffusion Model的Condition(条件),引导Diffusion Model生成目标图像。通过结合多模态大语言模型和扩散模型,TextHarmony实现了多模态内容的理解与生成。
为了缓解训练过程中的模态不一致问题,研究者提出Slide-LoRA,通过动态聚合模态特定的和模态无关的LoRA(Low-Rank Adaptation)专家,来实现在单一模型中部分解耦图像和文本的生成空间。具体地,Slide-LoRA主要由一个动态门控网络和三个低秩分解模块组成。其中,模态特定LoRA专家专门处理与特定模态(视觉或语言)相关的生成任务,使得模型能够在各自的空间中更有效地学习和生成,而模态无关的LoRA专家处理与两种模态都相关的通用特征,增强了模型对跨模态共享知识的学习。动态门控网络根据输入的文本和图像特征,动态决定在生成过程中使用哪些模态特定的专家和模态无关的专家,从而实现对不同模态生成任务的适应。
TextHarmony的训练分为两阶段,一阶段使用 MARIO-LAION 和 DocStruct4M 等图文对来预训练模型的对齐模块(Perceiver Resampler)和图像解码器,使得模型具备初步的文本生成与图像生成能力。二阶段使用视觉文本的生成、编辑、理解、感知四个类别的数据来做统一微调,这个阶段ViT、对齐模块、图像解码器和Slide-LoRA都被放开,从而学习到统一的多模态理解与生成能力。
四、主要实验及可视化
研究者在视觉文本场景对TextHarmony做了四个方面的对比实验:理解、感知、生成与编辑。
视觉文本理解:TextHarmony大幅度超过了多模态生成模型,并且接近Monkey等文字理解专家模型。
视觉文本感知:TextHarmony在OCR定位任务上超过了TGDoc、DocOwl1.5等模型。
视觉文本编辑与生成:TextHarmony大幅度超过了所有的多模态理解模型,并且接近TextDiffuser2等专家模型。
文字生成效果对比
文字编辑效果对比
文字图像感知与理解可视化
五、总结
TextHarmony是首个OCR领域的多模态生成模型,统一了视觉文本理解和生成任务。针对多模态生成模型的模态不一致问题,研究者提出Slide-LoRA模块,在单一模型中实现了视觉与语言模态的和谐统一。TextHarmony展现出了优秀的视觉文字感知、理解、生成和编辑能力,为依赖于视觉文本理解和生成的复杂交互任务提供了革命性的前景。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。