OCR-Omni来了，字节&华师统一多模态文字理解与生成 | NeurIPS2024

最新推荐文章于 2025-04-16 20:25:31 发布

江湖人称麻花滕

最新推荐文章于 2025-04-16 20:25:31 发布

阅读量1k

点赞数 13

文章标签： ocr 语言模型人工智能自然语言处理机器学习 langchain

本文链接：https://blog.csdn.net/m0_59235699/article/details/143132111

版权

多模态生成新突破，字节&华师团队打造TextHarmony，在单一模型架构中实现模态生成的统一，并入选NeurIPS 2024。

过去,视觉文字领域的大模型研究聚焦于单模态生成，虽然在个别任务上实现了模型的统一，但很难在OCR领域的多数任务上做到全面整合。

例如，Monkey等视觉语言模型（VLM）擅长文字检测、识别和视觉问答（VQA）等文本模态生成任务，却无法胜任文字图像的生成、抹除和编辑等图像模态生成任务。反之，以 AnyText 为代表的基于扩散模型的图像生成模型则专注于图像创建。因此，OCR领域亟需一个能够统一多模态生成的大模型。

为解决这一难题，字节跳动与华东师范大学的联合研究团队提出了创新性的多模态生成模型TextHarmony，不仅精通视觉文本的感知、理解和生成，还在单一模型架构中实现了视觉与语言模态生成的和谐统一。

目前论文已经上传arXiv，代码也即将开源，链接可在文末领取。

TextHarmony: 核心贡献

TextHarmony的核心优势在于其成功整合了视觉文本的理解和生成能力。传统研究中，这两类任务通常由独立模型处理。TextHarmony 通过融合这两大类生成模型，实现了视觉文字理解和生成的同步进行，从而统筹了 OCR 领域的多数任务。

研究表明，视觉理解和生成之间存在显著差异，直接整合可能导致严重的模态不一致问题。具体而言，多模态生成模型在文本生成（视觉感知、理解）和图像生成方面，相较于专门的单模态模型，性能出现明显退化。

数据显示，多模态生成模型在文本生成任务上较单模态模型效果降低 5%，图像生成任务上最高降低8%。而 TextHarmony 成功缓解了这一问题，其在两类任务上的表现均接近单模态专家模型水平。

技术创新

TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的组合架构：

ViT 负责图像到视觉 token 序列的转换。
MLLM 处理视觉 token 和文本 token 的交叉序列，输出两类 token：
文本 token 经文本解码器转化为文本输出。
视觉 token 与文本 token 结合，作为 Diffusion Model 的条件指引，生成目标图像。

这种结构实现了多模态内容的全面理解与生成。

Slide-LoRA：解决方案

为克服训练过程中的模态不一致问题，研究者提出了 Slide-LoRA 技术。该方法通过动态整合模态特定和模态无关的 LoRA（Low-Rank Adaptation）专家，在单一模型中实现了图像和文本生成空间的部分解耦。

Slide-LoRA 包含一个动态门控网络和三个低秩分解模块：

模态特定 LoRA 专家聚焦于特定模态（视觉或语言）的生成任务。
模态无关 LoRA 专家处理跨模态的通用特征。
动态门控网络根据输入特征，灵活调度不同专家的参与度。

DetailedTextCaps-100K: 高质量数据集

为提升视觉文本生成性能，研究团队开发了 DetailedTextCaps-100K 数据集。该集利用闭源 MLLM（Gemini Pro）生成详尽的图像描述，为模型提供了更丰富、更聚焦于视觉和文本元素的训练资源。

训练策略

TextHarmony 采用两阶段训练方法：

首阶段利用 MARIO-LAION 和 DocStruct4M 等图文对预训练对齐模块和图像解码器，构建基础的文本生成与图像生成能力。
次阶段运用视觉文本的生成、编辑、理解、感知四类数据进行统一微调。此阶段开放 ViT、对齐模块、图像解码器和 Slide-LoRA 的参数更新，以获得统一的多模态理解与生成能力。

实验评估

研究者对 TextHarmony 在视觉文本场景下进行了全面评估，涵盖理解、感知、生成与编辑四个维度：

视觉文本理解：TextHarmony 显著优于多模态生成模型，性能接近 Monkey 等专业文字理解模型。

视觉文本感知：在OCR定位任务上，TextHarmony超过了TGDoc、DocOwl1.5等知名模型。

视觉文本编辑与生成：TextHarmony 大幅领先于现有多模态生成模型，且与 TextDiffuser2 等专业模型相当。

文字生成效果对比

文字编辑效果对比

文字图像感知与理解可视化

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述