【OCR多模态大模型paper阅读笔记--4】InternLM-XComposer2-4KHD精读，8B文档理解新SOTA！中文能力优秀的OCR大模型

本文链接：https://blog.csdn.net/Mugi_jiang/article/details/139290068

《InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD》
paper: https://arxiv.org/pdf/2404.06512v1
code: https://github.com/internlm/internlm-xcomposer

基于InternLM-XComposer2提升了文档能力，具备4k图像理解能力。经本人测试，中文图片OCR能力优秀，强于Vary，在低分辨率手写图片的文字识别中，也强于前身InternLM-XComposer2。
《InternLM-XComposer2: Mastering Free-form Text-Image
Composition and Comprehension in Vision-Language Large Models》

全程手打的论文笔记，无机翻。
在这里插入图片描述

近年来，多模态大模型（LVLMs，Large Vision-Language Models）在图像描述、视觉问答等任务中取得了显著进展。然而，由于分辨率限制，它们在处理包含细节丰富的图像（如图表、表格、文档和信息图）时表现不佳，这限制了其在实际应用中的实用性。为了解决这一问题，InternLM团队提出了InternLM-XComposer2-4KHD，一种创新的多模态大模型，能够处理从336像素到4K高清（3840×1600）及以上分辨率的图像，显著提升了高分辨率图像的理解能力。

引言

好的，以下是对《InternLM-XComposer2-4KHD》论文中引言部分的详细讲解：

1. 引言

1.1 背景与动机

近年来，大语言模型（LLMs）的发展使得多模态大模型（LVLMs）在各种任务中表现出色，包括图像描述和视觉问答。然而，这些模型在处理高分辨率图像（如图表、表格、文档和信息图）时遇到了瓶颈。传统的LVLMs在分辨率上通常受限于1500×1500像素左右，无法满足实际应用中对高分辨率图像处理的需求。这种局限性严重限制了LVLMs在一些需要高分辨率细节理解的任务中的有效性。

1.2 问题定义

为了解决高分辨率图像处理中的挑战，本文提出了一种新型的多模态大模型——InternLM-XComposer2-4KHD。该模型能够处理从336像素到4K高清（3840×1600）及以上分辨率的图像。通过这种创新方法，模型在高分辨率图像理解任务中的表现得到了显著提升。

1.3 当前方法的局限性

现有的LVLMs在处理高分辨率图像时通常采用两种策略：

直接适配高分辨率视觉编码器：这种方法要求模型能够直接处理高分辨率图像，但受限于计算资源和训练数据，这种方法难以实现大规模应用。
将高分辨率图像分割为低分辨率补丁：这种方法通过将高分辨率图像划分为较小的补丁来处理，但这在实际应用中容易导致图像上下文信息的丢失，从而影响模型的理解能力。

1.4 论文贡献

本文提出的InternLM-XComposer2-4KHD在解决上述问题的基础上，做出了以下贡献：

动态分辨率与自动补丁配置：通过动态调整补丁布局和数量，模型能够在从336像素到4K高清范围内进行训练，有效解决了高分辨率训练数据不足的问题。
超过4K分辨率的推理能力：尽管训练过程中处理的图像分辨率最高为4K，但在推理时，处理更高分辨率的图像可以进一步提升模型性能，表明训练分辨率的提高会带来持续的性能提升。
全面的性能评估：在16个不同领域的基准测试中对模型进行了评估，特别是在高难度的HD-OCR数据集上表现出色，显著超越了现有开源LVLMs。

1.5 论文结构

引言部分之后，论文的结构如下：

第二章详细介绍了动态分辨率与自动补丁配置的具体方法。
第三章探讨了超过4K分辨率的推理能力及其实现方式。
第四章展示了模型在不同基准测试中的性能评估结果。
第五章总结了论文的主要贡献，并提出了未来的研究方向。
附录部分提供了实验设置和额外实验结果的详细说明。

2. 相关工作

2.1 多模态大模型

多模态大模型结合了大语言模型（LLMs）和视觉编码器，在多模态任务（如图像描述、视觉问答等）中取得了显著的进展。早期的LVLMs主要关注处理中低分辨率的图像，其代表性工作包括CLIP、ALIGN和BLIP，这些模型通过结合图像和文本信息实现了图像理解和生成。

CLIP：CLIP通过对比学习在图像和文本之间建立关联，实现了图像和文本的联合表示，并在零样本分类等任务中表现出色。
ALIGN：ALIGN通过使用大规模的图像和文本数据进行训练，进一步提升了多模态表示的质量。
BLIP：BLIP引入了一种自我训练的框架，利用图像和文本的对齐信息，进一步增强了模型的多模态理解能力。

2.2 用于高分辨率任务的LVLMs

高分辨率图像处理是一个重要但具有挑战性的领域。高分辨率图像包含更多的细节和信息，传统的图像处理和理解方法难以有效地捕捉这些细节。当前的LVLMs在处理高分辨率图像时，面临以下挑战：

计算资源：高分辨率图像的处理需要大量的计算资源，这对模型的训练和推理提出了更高的要求。
数据稀缺：高分辨率图像数据集较为稀缺，导致模型在训练过程中难以获得足够的高分辨率样本进行学习。

动态分辨率与补丁划分

为了应对高分辨率图像处理的挑战，一些研究提出了动态分辨率和补丁划分的方法。这些方法通过将高分辨率图像分割为多个较小的补丁进行处理，从而在一定程度上缓解了计算资源的限制。

Vit (Vision Transformer)：Vit通过将图像划分为固定大小的补丁（如16x16或32x32）并将其输入Transformer模型，从而在图像分类任务中取得了优异的表现。
Swin Transformer：Swin Transformer通过引入滑动窗口机制，实现了对图像局部信息的有效捕捉，并在多种视觉任务中表现出色。

然而，这些方法在处理高分辨率图像时仍然存在一些局限性，例如补丁之间的上下文信息丢失、训练过程中对补丁配置的依赖等。

高分辨率文档与OCR

高分辨率文档和光学字符识别（OCR）是高分辨率图像处理的重要应用领域。现有的OCR方法通常基于CNN（卷积神经网络）或RNN（循环神经网络）架构，这些方法在处理高分辨率文档时表现较好，但仍存在一些问题。
Document AI：Document AI是一类专门针对文档图像进行处理和理解的技术，包括文档分类、表格识别、内容提取等任务。这些技术通常需要处理高分辨率的文档图像，以提取其中的细节信息。
Tesseract OCR：Tesseract是一个开源的OCR引擎，广泛应用于文档图像的文字识别任务。尽管Tesseract在处理高分辨率图像时表现较好，但其对图像质量和预处理要求较高。

3 方法

3.1 模型架构

基本和InternLM-XComposer2一致，标准的CLIP ViT + LLM + MLP

视觉编码器（Vision Encoder）：使用了 OpenAI 的 ViT-Large/14 模型，这是一个轻量级且高效的视觉编码器，擅长提取图像特征。
大语言模型（LLM）：采用了 InternLM2-7B 模型，具备强大的语言理解和生成能力。
部分 LoRA（Low-Rank Adaptation）：用于在视觉编码器和语言模型之间实现高效的参数共享和对齐，从而减少计算成本。

3.2 高分辨输入High-Resolution Input

Dynamic Image Partition 动态图像分割

在这里插入图片描述
高分辨率图像通常具有不同的宽高比，静态地处理这些图像可能导致计算资源的浪费和处理效率的降低。
如图，本文采用动态图像分区方法，将图像分割成较小的块，同时保留原始宽高比。
对于给定的最大分区数 H，将尺寸为[h, w] 的图像x调整大小并填充为新的图像 $\hat{x}$ , 其尺寸为 $[p_h \times 336, p_w \times 336]$ ， $p_h$ 和 $p_w$ 分别是长和宽能分割出的336336patch的数量，且要求 $p_h * p_w < H$ 。这样， $\hat{x}$ 就被分割为 $p_h * p_w$ 个336336的patch，这些patch独立输入到ViT。

通过控制最大分区数H来控制能处理的分辨率。

Global-Local Format. 全局结合局部

目前SOTA方法的常见做法。

每张输入图像会有两种处理（如上图）：

全局：图像被调整为固定大小（本文为336 × 336）
局部：按照上述操作，对每个patch提取特征，提取后的特征重新组合成一个大的feature map，再展平。

Image 2D Structure Newline Indicator 2D图像换行符

因为输入图像的长宽比是不同的，在特征展平后每行的换行符数量是不同的，这使模型很难判断在原图中哪些特征在同一行，不利于文档理解中重要的结构理解。作者在展平前在图像特征的每一行的末尾引入了一个可学习的换行标记（learnable newline (‘\n’) token）
最后，concatenate全局和局部视图，并用一个’separate’ token分隔。

3.3 Pre-Training

冻结LLM，微调vision encoder + Partial-LoRA。
数据：主要遵循 XComposer2 中的设计，它考虑到三个目标：1）通用语义对齐，2）世界知识对齐，3）视觉能力增强。在本文中，专注于高分辨率和结构图像理解。为此目的使用了不同的OCR数据集。
在这里插入图片描述
模型选择
vision encoder：OpenAI CLIP ViT-L-14-336，有利于处理高分辨率图片
Dynamic Image Partition strategy：分块数选择HD-25
image token的数量通过a simple merge operation 被压缩到1/4
然后concatenate the nearby 4 tokens into a new token through the channel dimension
然后过一个MLP，再输入LLM
‘separate’ and ‘\n’ token采用随机初始化
Partial LoRA：a rank of 256 for all the linear layers in the LLM decoder block
batch size：a batch size of 4096 and spans across 2 epochs
学习率：线性增长到2 × 10−4 within the first 1% of the training steps，decreases to 0 according to a cosine decay strategy
apply a layer-wise learning rate (LLDR) decay strategy, and the decay factor is set to 0.90.

3.4 4KHD Supervised Fine-tuning

OCR相关任务依赖于对高分辨率图像中的文本的详细理解。例如，在 InfoVQA 中，50% 图像的较长边的长度超过 2000 像素。低分辨率输入会扭曲密集的文本信息，导致模型在其理解中失败。作者认为过去的工作没有很好地利用这些高分辨率。
为了解决这个问题，引入了一种混合分辨率训练策略（mixed-resolution training strategy）。对于需要高分辨率的任务，在训练期间采用“HD-55”，允许4K (3840 × 1600) 图像的输入，而无需额外的图像压缩。这些任务在表2中被称为HD-OCR QA任务。对于其他任务，使用动态分辨率策略（dynamic-resolution strategy）。图像大小调整为落在其原始大小和由“HD25”设置指定的大小之间的范围内。这种动态方法增强了 LVLM 对输入分辨率差异的鲁棒性，从而使 LVLM 在推理过程中利用更大的分辨率。

实验设置中，所有组件被联合训练with a batch size of 2048 over 3500 steps。
来自多个来源的数据以加权方式采样，权重基于每个源的数据数量。由于“HD55”设置的图像token是“HD-25”的两倍，调整了数据加载器，以实现不同的批处理大小并相应地调整它们的权重。

最大学习率设置为 5 × 10−5，每个组件都有自己的学习策略。对于视觉编码器， LLDR 设置为 0.9，这与预训练策略一致。对于LLM，采用0.2的fixed learning rate scale factor 。这减慢了LLM的更新，实现了保持其原始能力并将其与视觉知识对齐之间的平衡。