NeurIPS 2024 | 字节联合华师提出统一的多模态文字理解与生成大模型

c2e3d220d22457f4b4742a00c834557b.gif

a3522a38895d50ce471f36ee61f61e5f.png

研究背景与挑战

在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现了统一,但在 OCR 领域的多数任务上仍难以达成全面整合。

例如,Monkey 等视觉语言模型(VLM)擅长文字检测、识别和视觉问答(VQA)等文本模态生成任务,却无法胜任文字图像的生成、抹除和编辑等图像模态生成任务。反之,以 AnyText 为代表的基于扩散模型的图像生成模型则专注于图像创建。因此,OCR 领域亟需一个能够统一多模态生成的大模型。

69469a51aa86fc3d6dc7b43028f5155a.png

379b6317ae718b9241f787867490310b.png

论文链接:

https://arxiv.org/abs/2407.16364

代码开源:

https://github.com/bytedance/TextHarmony

127a56f0bd9f9b61a5311a62c8c37407.png

关键问题

2.1 多模态生成的内在矛盾

研究人员发现,多模态生成大模型面临视觉与语言模态之间的固有不一致性,这往往导致模型性能显著下滑。如图所示,在文本生成任务上,多模态生成模型相比单模态生成模型效果降低 5%,在图像生成上降低了 8%。

为应对这一挑战,近期的一些研究采用了特定模态的监督微调,从而分别优化文字生成和图片生成的模型权重。然而,这种方法与统一视觉理解与生成的初衷相悖。

为解决这一难题,字节跳动与华东师范大学的联合研究团队提出了创新性的多模态生成模型——TextHarmony。该模型不仅精通视觉文本的感知、理解和生成,还在单一模型架构中实现了视觉与语言模态生成的和谐统一。

2.2 TextHarmony:突破性贡献

TextHarmony 的核心优势在于其成功整合了视觉文本的理解和生成能力。传统研究中,这两类任务通常由独立模型处理。TextHarmony 通过融合这两大类生成模型,实现了视觉文字理解和生成的同步进行,从而统筹了 OCR 领域的多数任务。

研究表明,视觉理解和生成之间存在显著差异,直接整合可能导致严重的模态不一致问题。具体而言,多模态生成模型在文本生成(视觉感知、理解)和图像生成方面,相较于专门的单模态模型,性能出现明显退化。

0c63a946bd25556b5f237f432b4f0090.png

数据显示,多模态生成模型在文本生成任务上较单模态模型效果降低 5%,图像生成任务上最高降低 8%。而 TextHarmony 成功缓解了这一问题,其在两类任务上的表现均接近单模态专家模型水平。

8c313780f8c095e27b5c43f32226f3e0.png

技术创新

TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的组合架构:

1. ViT 负责图像到视觉 token 序列的转换。

2. MLLM 处理视觉 token 和文本 token 的交叉序列,输出两类 token:

  • 文本 token 经文本解码器转化为文本输出。

  • 视觉 token 与文本 token 结合,作为 Diffusion Model 的条件指引,生成目标图像。

这种结构实现了多模态内容的全面理解与生成。

3.1 Slide-LoRA:解决方案

为克服训练过程中的模态不一致问题,研究者提出了 Slide-LoRA 技术。该方法通过动态整合模态特定和模态无关的 LoRA(Low-Rank Adaptation)专家,在单一模型中实现了图像和文本生成空间的部分解耦。

Slide-LoRA 包含一个动态门控网络和三个低秩分解模块:

  • 模态特定 LoRA 专家聚焦于特定模态(视觉或语言)的生成任务。

  • 模态无关 LoRA 专家处理跨模态的通用特征。

  • 动态门控网络根据输入特征,灵活调度不同专家的参与度。

a75307cb1b5c79b64fe51570eb78e08c.png

● DetailedTextCaps-100K:高质量数据集

为提升视觉文本生成性能,研究团队开发了 DetailedTextCaps-100K 数据集。该集利用闭源 MLLM(Gemini Pro)生成详尽的图像描述,为模型提供了更丰富、更聚焦于视觉和文本元素的训练资源。

fdccc59ddea751159b874f03a7c1ac7f.png

3.2 训练策略

TextHarmony 采用两阶段训练方法:

  1. 首阶段利用 MARIO-LAION 和 DocStruct4M 等图文对预训练对齐模块和图像解码器,构建基础的文本生成与图像生成能力。

  2. 次阶段运用视觉文本的生成、编辑、理解、感知四类数据进行统一微调。此阶段开放 ViT、对齐模块、图像解码器和 Slide-LoRA 的参数更新,以获得统一的多模态理解与生成能力。

d7c0215a5f56ba889fe62b360aa93ab4.png

实验评估

研究者对 TextHarmony 在视觉文本场景下进行了全面评估,涵盖理解、感知、生成与编辑四个维度:

1. 视觉文本理解:TextHarmony 显著优于多模态生成模型,性能接近 Monkey 等专业文字理解模型。

eeaa1855eedd9ae90563131c49de7bb0.png

2. 视觉文本感知:在 OCR 定位任务上,TextHarmony 超过了 TGDoc、DocOwl1.5 等知名模型。

8f6f875fc37d55c2ed3863a203a29406.png

3. 视觉文本编辑与生成:TextHarmony 大幅领先于现有多模态生成模型,且与 TextDiffuser2 等专业模型相当。

1372192ea1740de059426592dc10ef54.png

4.1 文字生成效果对比

c02ecc6964bac538245e09a710f782aa.png

4.2 文字编辑效果对比

37237af592882844a1dee200ff81be4a.png

4.3 文字图像感知与理解可视化

1307e230df867d52d647b96ff81408c6.png

477892383c471aaea06302651baa75ca.png

总结与展望

TextHarmony 作为 OCR 领域的多功能多模态生成模型,成功统一了视觉文本理解和生成任务。通过创新的 Slide-LoRA 技术,它有效解决了多模态生成中的模态不一致问题,在单一模型中实现了视觉与语言模态的和谐统一。

TextHarmony 在视觉文字感知、理解、生成和编辑方面展现出卓越性能,为复杂的视觉文本交互任务开辟了新的可能性。

这项研究不仅推动了 OCR 技术的进步,也为人工智能在理解和创造方面的发展提供了重要参考。未来,TextHarmony 有望在自动文档处理、智能内容创作、教育辅助等多个领域发挥重要作用,进一步推动人工智能的应用。

更多阅读

f4a3f49c8d782757b0b6f243ac6bb345.png

a6c104f8e0fddd672a86aee052145af2.png

bfac2816bbe11d8b14f7a1498709a051.png

7ae49957ac0d6bebd359326505c778b3.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

8c2596808d553395c3f24b1e6be34e8c.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

d63325308e461cfcd69c446db32c3d33.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值