多模态大模型：视觉模型与LLM的结合之路三：InternVL-v1.5、Qwen2VL

本文链接：https://blog.csdn.net/2401_84495872/article/details/145378982

一、上期回顾

上期我们介绍了QwenVL，一个以数据和训练任务为中心的工作，通过暴力的堆叠数据和设计多种训练任务，QwenVL可以较好的理解图像内容，甚至能给出图中某些物体的坐标。但受限于448*448的图像分辨率，QwenVL的OCR能力较差。本次我们将介绍InternVL-v1.5，如果将Mini-GPT4，Llava，Blip2，QwenVL当做多模态大模型发展的第一阶段，则可以认为InternVL-v1.5将多模态大模型带入了第二阶段。

&lt;span leaf=&quot;&quot;&gt;&lt;img data-imgfileid=&quot;100004722&quot; data-src=&quot;https://mmbiz.qpic.cn/sz_mmbiz_png/mZ89VeqFiaqvgCw6iaUCwgYGBfibOOl2VP36x0XN7UaTbia0vReWzAMbAuoukenyPZjrWTC8jY7SyravwpeyliaZk4g/640?wx_fmt=png&amp;amp;from=appmsg&quot; data-type=&quot;png&quot; width=&quot;1538&quot;/&gt;&lt;/span&gt;

         图1：图像与大模型的主流结合方式。(1)将图片经过一个Pretrained VIT，获取视觉特征。（2）将该视觉特征通过某种变换层(Adapter)对齐到大模型 Input Embedding的维度。(3)将对齐后的视觉特征concat到Input Embedding，输入到大模型(Large Language Model, LLM)

二、InternVL-v1.5

模型上，internVL-v1.5首次将ImageEncoder(VIT)的参数量扩展到了6B，将图像的视觉特征（图1中的aligned img emb）扩展到了1.7k，将图像的分辨率提升到7个448 * 448的patch(后续会解释)，并引入了动态长宽比。数据上，InternVL-v1.5不仅收集了大量自然场景数据，还收集了大量文档数据，进一步提升算法的OCR能力。

	VIT的参数量	图像分辨率	视觉特征序列长度	动态长宽比
第一阶段模型	<300M	448*448	512	不支持
InternVL-V1.5	6B	4484487	1792	支持

2.1 动态长宽比

此前，多模态大模型通常是将图像resize到固定的长宽比(448 x 448 或 1344 x1344)，再送入VIT获取图像特征，这种做法会造成两个问题：

对于极端长宽比的图片，失真严重
若固定一个较大的长宽比（比如1344*1344），则VIT会产生超长的序列长度，消耗大量算力

为了解决这两个问题，InternVl-v1.5引入了动态长宽比

&lt;span leaf=&quot;&quot;&gt;&lt;img data-imgfileid=&quot;100004724&quot; data-src=&quot;https://mmbiz.qpic.cn/sz_mmbiz_png/mZ89VeqFiaqvgCw6iaUCwgYGBfibOOl2VP3R8vqcpBHYtY2cRx715FrLtXrzibHibjiczmsFuSxzf7GsHpnCX2H9HBqQ/640?wx_fmt=png&amp;amp;from=appmsg&quot; data-type=&quot;png&quot; width=&quot;906&quot;/&gt;&lt;/span&gt;

  图2：动态长宽比的实现方式，图中的Pixel Shuffle的流程会在2.3节给出

如图2，动态长宽比的实现分为以下4个步骤：

预设最大patch数量：max_patches，图像会被分为多个448x448的patch，但会保证patch数不超过max_patch，图2中max_patches被设为7
根据最大patch数量给出能够适配的长宽比（长 * 宽 <= max_patch - 1），图2左下部分即为max_patches=7时候能够适配的部分长宽比
根据原图分辨率和原图长宽比，给出最匹配的长宽比（图2中为 2:3），并将图片resize并分为多个448 x448的patch（图2中，想将图片从[800, 1300] resize成 [448x2 = 896, 448x3 =1344]，再将其切片成为 2x3=6个 448x 448 的patch）
最后将原图resize到448x448放在patch的后面，就得到了图像经过动态长宽比后的图片（图2中部小图）
这些小图分别经过VIT后会得到max_patch个1024长度的序列，将这些序列拼接起来即可得到图像序列

这样做的好处是

可以处理较为极端长宽比的图像，避免了因resize导致的图像变形
大分辨率图对应的序列长度较长，小分辨率图对应的序列长度较小
将图片切成了多个448x448的小片过VIT，采用了分块的思想，解决了大分辨率图像计算量大的问题。

2.2 超大VIT, Pixel Shuffle及模型结构

此前多模态大模型的VIT模型通常是OpenAI训练的CILP模型的VIT（参数量约为200M）。由于大模型证明了模型参数量的重要性，InternVL-V1.5将VIT的参数量提升至6B从而提升模型效果。其使用的VIT模型输入为448x448的图像，该模型会将图像切分成32x32个14x14的patch，最后会输出长度为32x32=1024长度的序列。

&lt;span leaf=&quot;&quot;&gt;&lt;img data-imgfileid=&quot;100004721&quot; data-src=&quot;https://mmbiz.qpic.cn/sz_mmbiz_png/mZ89VeqFiaqvgCw6iaUCwgYGBfibOOl2VP3gyibhPaTCJ3x8l56NfbP6lKxXjoy9LGE9R0qiangbW9vuAlgNKv8L8nQ/640?wx_fmt=png&amp;amp;from=appmsg&quot; data-type=&quot;png&quot; width=&quot;970&quot;/&gt;&lt;/span&gt;

                                  图3：PixelShuffle的示意图

由于动态长宽比的引入，VIT最多会接受max_patch个448x448的图片，若不做任何处理，img_emb的序列长度会达到max_patchx1024。如此长的img_emb送入大模型会导致显存占用高，计算慢的问题。该文引入了PixelShuffle算法将单张图片的序列长度从1024降低至256。如图3，PixelShuffle会将VIT输出的(1024,hidden_dim)的序列reshape为(32,32,hidden_dim)的特征图, 然后每个2x2为一个基础单元按图3个方式进行变换，进而得到(16, 16, hidden_dimx4)的特征图。最后将特征图进行flatten得到(256, hidden_dimx4)的序列。

&lt;span leaf=&quot;&quot;&gt;&lt;img data-imgfileid=&quot;100004728&quot; data-src=&quot;https://mmbiz.qpic.cn/sz_mmbiz_png/mZ89VeqFiaqvgCw6iaUCwgYGBfibOOl2VP3WuSjCeQmibZSZuE4JibLiaDcBNCSD01JnBFW2x8XA4g5rOmwdSAPrXsDA/640?wx_fmt=png&amp;amp;from=appmsg&quot; data-type=&quot;png&quot; width=&quot;1386&quot;/&gt;&lt;/span&gt;

                         图4：internvl-v1.5的模型架构

InternVL-v1.5的总体模型架构如图3所示，图片经动态长宽比切片后送入VIT模型，并经过PixelShuffle得到img_emb。本文使用MLP将得到的img_emb的channel数量与大语言模型的input_emb对齐，并使用InternLM2-Chat-20B作为语言模型。

2.3 训练数据集

为了提升模型的通用能力和OCR能力，InternVL-V1.5收集了海量开源数据集用于模型预训练和finetune。第一阶段预训练仅训练VIT和MLP部分，预训练数据集主要是基础能力的训练，包括图像的简单描述，目标检测和OCR能力。第二阶段finetune则包含各种复杂任务，包括图像详细描述，表格理解，图像问答等。两阶段的序列长度均为4096并将max_patches设置为7。除此之外，为了提升模型的中文场景理解能力和中文OCR能力，在构建数据集时，InternVL-V1.5将大量英文数据集利用LLM翻译成了中文（如将img-caption数据集的英文caption转为中文caption），并使用PaddleOCR和Wukong数据集生成了Wukong-ocr数据集。

&lt;span leaf=&quot;&quot;&gt;&lt;img data-imgfileid=&quot;100004727&quot; data-src=&quot;https://mmbiz.qpic.cn/sz_mmbiz_png/mZ89VeqFiaqvgCw6iaUCwgYGBfibOOl2VP3Q6VLHAe0lYg3q7DTibcQqP3Wrj4ICk9QJrWHiaKC86EY1x5Con19JxEA/640?wx_fmt=png&amp;amp;from=appmsg&quot; data-type=&quot;png&quot; width=&quot;1054&quot;/&gt;&lt;/span&gt;

                          图5：预训练阶段使用的数据集

&lt;span leaf=&quot;&quot;&gt;&lt;img data-imgfileid=&quot;100004730&quot; data-src=&quot;https://mmbiz.qpic.cn/sz_mmbiz_png/mZ89VeqFiaqvgCw6iaUCwgYGBfibOOl2VP3va2bicRzBgSByPibHb0tpIBN3BfWMtS69bnHKUv9OasgZBaibxzLsSXQg/640?wx_fmt=png&amp;amp;from=appmsg&quot; data-type=&quot;png&quot; width=&quot;1196&quot;/&gt;&lt;/span&gt;

                         图6：finetune阶段使用的数据集

3 总结

相较于之前的工作，本文的主要贡献在于将大VIT、长img_emb和动态长宽比引入了多模态大模型并扩充了训练数据集。

对于富文本图片，其包含的信息量较大，此前使用的小VIT，短img_emb可能无法承载如此多的信息，大VIT，长img_emb让internVL-V1.5拥有了理解富文本图片的潜力
扩充的训练数据集让internVL-V1.5拥有了理解富文本图片的能力
动态长宽比的引入则让模型更好的处理极端长宽比的图片（如宣传海报），并且避免了图像resize导致的形变问题

------------------------分割线-------------------------------------

一、上期回顾

上期我们介绍了InternVL-v1.5，该工作首次将大VIT，长图像seqence和动态长宽比引入多模态大模型。本次我们将介绍Qwen2VL，相较与InternVL-v1.5，其包含以下几个改进。

模型尺度	VIT模型大小固定在675M；LLM大小分为1.5B，7.6B和72B三个版本
图像预处理	不仅关注图像宽高，还关注图像分辨率。分辨率越高的图像，使用更多的视觉token来表示
统一的多模态Rope位置编码	开发了一套位置编码，用于表示视觉视频和文字的位置信息

图1：图像与大模型的主流结合方式。(1)将图片经过一个Pretrained VIT，获取视觉特征。（2）将该视觉特征通过某种变换层(Adapter)对齐到大模型 Input Embedding的维度。(3)将对齐后的视觉特征concat到Input Embedding，输入到大模型(Large Language Model, LLM)

二、Qwen2VL

Qwen2VL的模型架构可以使用图1来表示，其模型结构的特殊性主要体现在动态分辨率和位置embedding上，本文将着重介绍这两点

2.1 动态分辨率

InternVL系列的图像转序列(img_emb)模块会将图像分为多个448*448的patch，即图像的长宽会被resize到448的倍数，该方法虽然能支持动态长宽比，但实际应用时，该图像分patch机制更多考虑的是长宽比，而非分辨率。

|
使用模型

图像分辨率

resize后分辨率

图像序列长度

|
| — | — | — | — |
|

InternVL-v1.5

512x512

448x448

256

|
|

InternVL-v1.5

40x400

448x4480

2560

|
|

Qwen2VL

512x512

504x504

324

|
|

Qwen2VL

40x400

28x392

而Qwen2VL的图像转序列不仅考虑了长宽比还考虑了分辨率对img_emb序列长度的影响, 极大程度上提升了模型的infer效率。其实现动态分辨率的具体做法分为图像预处理和VIT两个部分。

图2：图像预处理流程图，Qwen2VL在处理视频时会将视频当做多个图片来处理，并在VIT中应用了2,h,w,c的3D卷积核(2为时间维度)。为了统一图像和视频的输出，此处会将图像在channel层面翻倍（相当于输入了两帧一样的图片）。

**图像预处理部分：**以512x512的图像为例，该图像会被resize成504x504；然后被分为 36x36个patch，每个patch的大小均为14x14x3；随后channel维度进行重复得到 36x36个patch，每个patch的大小均为14x14x3x2；最后会对图像进行flatten操作，得到(36x36, 14x14x3x2) = （1296, 1176）的序列。

        图3：图像过VIT的流程图，其中的FFN为图1中的Adapter，红色部分即为图1中的aligned\_img\_emb

**视觉部分：**以512x512的图像为例，其预处理后的序列会先过一个3D卷积将其变为（1296, 1280），其作用相当于过了一个FFN，模型中使用的3D卷积是为了将图片与视频相统一。该序列过完VIT后即得到（1296, 1280）的img_emb。**由于图像最开始被resize到长宽均能被28整除，因此此时得到的seq_len一定能被4整除。**为了压缩图像序列，减少大模型的资源消耗，视觉部分将img_emb reshape为(1296/4=324，5120)的大小，并使用FFN将hidden维度数与大模型对齐

2.2 统一的多模态Rope位置embedding

为了将视频，图像和文本将统一，该文提出了一个统一的位置embedding：**Multimodal Rotary Position Embedding。**对于每个token其有三个 position_id分别是 temporal position_ids(时间id，在纯文本中表示原始的位置id，在图片或视频中表示时间位置id)；height position_ids和width position_ids(宽高id，在纯文本中宽高id与时间id一致，在视频和图片中表示图片的宽高)。以下是一个position_id的例子。

input_ids: [V V V V V V V V V V V V T T T T T], here V is for vision.  
vision temporal position_ids: [0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2]  
vision height position_ids: [0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1]  
vision width position_ids: [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1]  
text temporal position_ids: [3, 4, 5, 6, 7]  
text height position_ids: [3, 4, 5, 6, 7]  
text width position_ids: [3, 4, 5, 6, 7]  
  
temporal position_ids: [0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 3, 4, 5, 6, 7]  
height position_ids:   [0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 3, 4, 5, 6, 7]  
width position_ids:    [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 3, 4, 5, 6, 7]

在过完vision_token之后，text_token的时间id起始值为之前三种id的最大值 + 1。这种设计有几点好处