浙大、蚂蚁等提出TokenPacker,多模态大模型中的高质量视觉token压缩方法

9b118ee1e60f70597660711cf440757c.gif

©PaperWeekly 原创 · 作者 | 李文通

单位 | 浙江大学

研究方向 | 多模态、场景理解

114bdb1150666d0b089efc6088782c3b.png

引言

最近,多模态大模型(Multimodal LLM, MLLM)/(Large Multimodal Model, LMM)的研究更新速度令人目不暇接,开源模型逐渐朝着逼近与 GPT-4V/o 等闭源模型的性能前进。本工作针对多模态大模型中一个重要的模块-视觉映射器(Visual Projector)展开了探索与研究,提供了一个可以高质量压缩视觉 token 数量且性能表现优异的一种方法。

下面进行展开具体介绍。

典型的多模态大模型,采用线性映射 MLP 作为视觉映射器,其能够实现将视觉特征到 token 一对一地映射到文本空间, 从而有效地接入 LLM 中。然而,有没有更合适、更有效的结构形式来实现,是一个值得研究的问题。

其次,视觉 token 的个数对于多模态大模型效率起着重要作用,特别是大分辨率输入图像或视频场景,视觉 token 大幅增加,则将给 LLM 带来非常大的计算量。此外,简单的 MLP 作为视觉映射器产生的视觉 token 会存在一定的冗余视觉表示, 在最近的论文 LLaVA-PruMerge 中 [1] 也有相应的分析。因此,视觉映射器也起着视觉 token 压缩的关键作用来提升多模态大模型的效率。

目前对于视觉映射器,主要分为以下几种:

1. Resampler [2] or Q-former [3]:该方法通过引入可学习的 query 来自适应地来学习相关视觉表示,通过控制可学习 query 的个数来控制视觉 token 产生的数目。

2. 基于卷积的视觉映射器:典型的工作有 C-abstractor [4]、LDPv1/v2 [5], 通过引入卷积操作来建模局部视觉信息之间的关系,同时采用下采样减少视觉表示的长度。

3. 维度变换:将产生的视觉表示在 sequence 的维度变换到 channel 维度,如 PixelShuffle,虽然视觉信息没有减少但结构信息可能会被破坏。在 InternLM-XComposer2-4KHD [6] 与 InternVL 1.5 [7] 的研究工作均采用了类似的操作。此外,在研究工作 MM1 [8] 中,也对常用的几种 Visual Projector 进行实验验证与性能分析。

在本研究工作中,我们提出一种更有效的 Visual Projector 方法 - TokenPacker(寓意:对视觉特征信息进行打包,产生少而精的视觉 token 表示)。

首先,我们给出了在 llava-1.5 的相同 setting 下进行验证,对比分析了典型的几种视觉映射器。尽管现有的方法可以实现 token 数量的减少,但都会存在或多或少的性能下降,也就是其在视觉 token 压缩时存在信息损失。

本文的 TokenPacker 可以实现在压缩为 64(1/9)个 token 的情况下实现了与原始 LLaVA-1.5(576)相近的平均多模态性能表现,且模型的推理速度(TPS)大幅提升,TokenPacker 还可以进一步压缩至 32(1/16),甚至更少。

此外,我们也在大分辨率的设置下进行实验验证,在绝大多数的 benchmark 下领先目前典型的 Mini-Gemini-HD [9], LLaVA-NeXT [10] 等方法。

2b1bc09d2546d9258836e0ab9168d0c4.png

▲ 典型视觉映射器方法-精度与推理时间对比

420be40d441335232fa93337a65fc15e.png

具体方法

首先,我们分析了多模态大模型中视觉 token 个数是影响模型效率的重要因素;接着,详细介绍了 TokenPacker 具体过程;以及作为扩展,本文还提供了一种支持大分辨率输入图像的动态划分策略来高效实现多模态大模型对大输入分辨率的细粒度理解。

0cb94722c37ed68e3d1c40eea79eb4d9.png

▲ 典型的多模态大模型框架与 TokenPacker 作为视觉映射器

2.1 典型的多模型大模型及效率分析

典型的多模态大模型通常由三个部分组成:视觉编码器(Visual Encoder),将一张输入图像 可产生 个视觉特征表示;视觉映射器(Visual Projector):将图像编码映射到文本编码空间并产生 个视觉 token 表示;大语言模型(LLM):在视觉 token 和文本 token 的输入下产生准确的文本预测。

对于一个多模态大模型,其计算量主要存在于 LLM。典型的视觉编码器(如 ViT-L)只有 0.3B,而常用的 LLM 则有 7/8B-13B。由于 Transformer 本身全局 attention 的网络结构,LLM 的计算复杂度与输入 token 的个数为平方级增长关系。

因此,可以通过减少视觉映射器产生的视觉 token 的个数来提升多模态大模型的效率,即:,且 M 越小模型计算效率越高。更重要的是,还需保证在少量视觉 token 下能够全面地表达出输入图像的特征表示。

2.2 视觉映射器:TokenPacker

为此,本论文引入了 TokenPacker 作为视觉映射器,既可以产生尽可能少数量的视觉 token,又可以尽量表达出图像本身丰富的视觉信息。

0b26b2a56ebf852cf5389cffcfa1e27a.png

▲ TokenPacker 结构

TokenPacker 采用 coarse-to-fine 的核心思想:基于一个 coarse 的视觉特征表示不断去注入丰富的视觉特征信息,从而产生一个高质量的浓缩视觉 token 表示。

具体过程为:

(1)首先,将来自视觉编码器(ViT-L)的视觉特征 下采样,得到输入图像的低分辨率、粗糙的特征表示 ,其中 , 为下采样倍数。从而,低分辨 中的每个像素对应原始高分辨率特征 中的 子区域。我们希望将 子区域的细粒度信息充分地交互注射到对应的低分辨率中像素中去,使其尽可能表达出子区域的视觉特征。

(2)为此,我们将低分辨中的每个像素视为 point-based query,将高分辨率中对应的 子区域视为 region-based key 与 value 作为其细粒度表达的参考,并构建 point-region pairs。

接着,为使每个 pair 之间充分交互,我们采用 Point to Region Cross Attention,将细粒度特征信息注射到相应的 point-based 特征表示中去。将交互后的信息输出再经过 MLP 层,更新产生一个包含细粒度信息的浓缩 token 表示 ,其维度与低分辨的 一致。

因此,产生的视觉 token 个数是由下采样倍数 来控制,下采样倍数越大,其产生的视觉 token 的数量相应越小。实验部分也给出了不同压缩比下的性能对比。

(3)此外,为了能够包含更丰富全面的视觉表达,我们引入了 CLIP-ViT-L 多层特征信息。在之前研究 [11] 中表明,不同层输出的特征图包含不同形式的视觉信息,浅层特征信息包含物体细节信息,而深层更注重语义信息的表达。我们将多层特征信息作为 region-based key 与 value 作为参考信息,提供更全面的视觉表达。实验部分也验证了该操作的有效性。

讨论:

(1)相对于 Resampler/Q-Former:TokenPacker 没有采用可学习的 query,而是采用视觉特征的直接下采样粗糙特征表示作为 query,可提供一定的基础,比 Resampler/Q-Former 更容易收敛且效果更好。

(2)相对基于卷积的 C-Abstractor 与 LDPv1/v2:TokenPacker 由于引入Point-Region 对,在局部区域之间进行信息交互,因此也具备相应的局部之间的 context。

因此,TokenPacker 具有目前典型 visual projector 的优势,且实现操作简单。

2.3 用TokenPacker来支持大分辨率输入图像

高效地支持大分辨率输入图像是目前多模态大模型需要重点去解决的问题。目前的研究工作大多数将高分辨输入图像进行划分为小的 patch,并逐个通过 CLIP-ViT 视觉编码器获取相应的视觉 token,一并作为 LLM 的输入。

典型的工作有 Monkey [12], Ureader [13], LLaVA-NeXT [10]、InternLM-XComposer-4KHD [6],InternVL 1.5 [7],LLaVA-UHD [14] 等。随着图像块数目增加,视觉token数量也数倍增加,从而导致模型效率的大幅下降。

作为扩展,本工作提供了一种新的动态图像划分 patch 的方法,并基于 TokenPacker 来实现视觉 token 的压缩,从而实现整个多模态大模型对大分辨输入图像的高效运行。

3f285a9106b3c44d6dcb1916c3cfb23d.png

▲ TokenPacker-HD 高效实现大分辨输入图像的细粒度理解

我们设计了一个可以保持图像尺寸比的 patch 划分的策略,与之前的方法不同,我们在 patch 划分过程中保证了 padding 的内容最小,从而使得每个划分后的 patch 在保持原始长宽比的情况下,图片本身内容占据最大。

具体而言,对于一张输入图片,首先定义了一组划分的可划分的网格(patch grids):

45205f709f43d96f9cfd89b8b3af1386.png

其中 , 分别是图像长与宽对应划分 patch 的个数。 为支持的最大划分 patch 的个数。 引入两种分数,一个是填充(padding)分数 ,其强调除图像本身内容占比最大,padding 内容占比最小,定义为:

52d0b139137dbc1ae3b8cb836210372b.png

另外一个重合度(overlap)分数 ,其强调划分后图像的整体内容与原始图像大小重合度最大,定义为:

03fc5226bda95b4717361723da2dbd14.png

其中,,,。 表示为 patch 大小。将这两个分数的加权和并最大化,从而获取最合适的图像 patch 划分方案:

d47f3cfbbc788cdd37b6d56cfcdde5f9.png

得到划分方案后,将原始图像按照比值 进行保持原图比例的 resize 并进行图像 patch 的划分。最终,划分后的图像 patch 经过视觉编码器得到相应的特征表示,并经过本文的 TokenPacker 获取压缩后的视觉 token 表达。

TokenPacker 可以实现 1/4,1/9, 1/16 甚至更小倍数的视觉 token 压缩,使得划分图像 patch 带来成倍增加的 token 数量显著降低,使得 LLM 高效运行。实验部分重点提供了不同压缩比下的大分辨率多模态性能对比。

b7a8cdafab7594d5c659a11c713f99ab.png

实验

首先,为了保证公平的实验对比,本文首先以 LLaVA-1.5 作为 baseline,在正常分辨率(336x336)下进行实验,并以其相同的训练设置来进行实验验证。然后,为了获取更好的性能,我们采用了 Mini-Gemini 中组织并开源的数据(2.7M)来进行大分辨率模型的训练,并在多个 benchmark 下进行测试验证。

正常分辨率下的实验

本研究工作分别在 1/4、1/9、1/16 的视觉 token 压缩比下,进行对比实验。在六种 benchmark 下进行验证,包括综合理解:MMBench,MM-Vet;视觉问答:VizWiz,VQAv2,GQA 以及幻觉:POPE。实验结果如下表所示:

34fd47a10a708ba67c2b200ebc179549.png

可以发现,在 1/4 的压缩比下(576 vs. 144), 我们的方法在大多数指标上都有性能提升,在通用的视觉问答任务 VQAv2 与 GQA 等任务下有少许的性能下降。并取得了稍高的平均性能。

对于更少的视觉 token,在 1/9 压缩比(64),平均性能略有下降。7B 模型下取得了接近的性能(61.9 vs. 62.0)。对于 1/16 压缩比(即 36 个 token),我们的方法取得了比最近的 token 压缩方法 LLaVA-PruMerge 更好的性能,特别是 MMBench,VQAv2,有 2-3 个点性能提升,这验证了 TokenPacker 的有效性。

大分辨下的实验

对于大分辨率下的设置,我们设置最大划分个数 分别为 9 与 16,即最大的支持输入分辨率为 1088x1088 与 1344x1344,并在 1/4、1/9、 1/16 的 token 压缩比下进行实验。由于图像 patch 动态划分策略,每个图片长宽不同,划分 patch 的个数亦不同。我们方法的产生 token 个数是在所有训练集及测试集图片的统计平均值。

首先,可以看出对于 1344x1344 的输入分辨率, 即最大划分 patch 个数为 16, 在 1/4 压缩比下,即每个 patch 产生 144 个 token,总的 token 个数统计约 1393 个,约为 LLaVA-NeXT,Mini-Gemini-HD 等方法的一半数目。在 OCR 任务相关的 benchmark 下,我们的方法取得了最好的性能,特别是 OCRBench 大幅领先 Mini-Genimi-HD, TextVQA 也较大幅度领先 LLaVA-NeXT。 

然而,并不是分辨率越大所有指标都会一致表现最好。对于综合理解的 MMMU、MME 指标下,我们的方法在 1088x1088 的分辨率下取得了最好的性能,分别为 38.8 与 1595/356,较大幅度领先 LLaVA-NeXT 与 Mini-Gemini-HD,而视觉 token 个数约为这些方法的 1/3,可大幅提升模型效率。

此外,在 1/9 的 token 压缩比下, 在综合理解 MMBench,MMMU  与 MME 以及视觉问答 VizWiz 指标下,我们的方法也取得了具有竞争力的性能,处于性能第二的水平。

更进一步在 1/16 的 token 压缩比下,平均 token 个数约为 347,可以看出压缩比越大,存在一些细节信息的丢失,对于 OCR 细粒度要求较高的任务,则会性能下降较明显。但对于其余的多模态 benchmark,如 MMBench,MMMU与MME,VQAv2,VizWiz 以及 POPE,我们方法取得了与 Mini-Genimi-HD 十分接近的性能,甚至在有些指标上超越 Mini-Genimi-HD。这也验证了我们方法的有效性。

dc0ea0715f569d68167dcf2e03886ba0.png

消融实验

对于消融实验,首先验证了典型的 visual projector 在相同 setting 下公平的对比实验,其中包括 Resampler、C-Abstractor、Pixel-Shuffle、LDPV2。重点说明了在压缩了 1/4 的 token 下,模型的效率得到了大幅提升。(25TPS vs. 5 TPS)。

接着,验证了大分辨率下不同的划分策略,我们采用了 LLaVA-NeXT 与 Ureader 两种典型的图像划分策略进行对比。最后分析了我们的方法中各个模块的性能表现。

最后贴一下典型的可视化对比与运行时间对比:

e9a20a8fb2b293adb863169cefa18e1c.png

以上就是我们论文的主要内容,详细的论文细节和实验细节请阅读我们的论文。代码也已全部开源,欢迎大家尝试,若有相关问题欢迎联系我们。欢迎大家批评指正。

outside_default.png

参考文献

outside_default.png

[1] Shang et al., Llava-prumerge: Adaptive token reduction for efficient large multimodal models, arXiv:2403.15388, 2024

[2] Bai et al., Qwen-vl: A frontier large vision-language model with versatile abilities, arXiv:2308.12966, 2023.

[3] Li et al., Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models, In ICML, 2023.

[4] Cha et al., Honeybee: Locality-enhanced projector for multimodal llm, In CVPR 2024.

[5] Chu et al., Mobilevlm v2: Faster and stronger baseline for vision language model, arXiv:2402.03766, 2024.

[6] Dong et al., Internlm-xcomposer2-4khd: A pioneering large vision-language model handling resolutions from 336 pixels to 4k hd, arXiv:2404.06512, 2024.

[7] Chen et al., How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites, arXiv:2404.16821, 2024.

[8] McKinzie et al., Mm1: Methods, analysis & insights from multimodal llm pre-training, arXiv:2403.09611, 2024.

[9] Li et al., Mini-gemini: Mining the potential of multi-modality vision language models, arXiv:2403.18814, 2024.

[10] Liu et al., Llava-next: Improved reasoning, ocr, and world knowledge, 2024.

[11] Jiang et al., From clip to dino: Visual encoders shout in multi-modal large language models, 2023.

[12] Li et al., Monkey: Image resolution and text label are important things for large multi-modal models, In CVPR, 2024.

[13] Ye et al., Ureader: Universal ocr-free visually-situated language understanding with multimodal large language model, arXiv:2310.05126, 2023.

[14] Xu et al., Llava-uhd: an lmm perceiving any aspect ratio and high-resolution images, arXiv:2403.11703, 2024.

更多阅读

04718a733104a0665c087ed38dbc5130.png

8cd7814f29b6414a51501604422c0753.png

0d76c3d2f34683a86eb3c57978de5c4b.png

6c7d23533e57c306fb8f9ee6b077dacf.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

ca424e017236b285c85896bca6876e6c.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

bcf84c69fa65c8c89d306403ed0db8cb.jpeg

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
摘 要 伴随着人才教学的关注度越来越高,对于人才的培养也是当今社会发展的最为重要的问题之一。为了进一步的进行人才的培养关工作,许多的学校或者是教育的机构逐步的开展了网络信息化的教学和和管理工作,通过信息化的手段和技术实现网络信息化的教育及管理模式,通过网络信息化的手段实现在线答题在线考试和学生信息在线的管理等操作。这样更加的快捷解决了人才培养之的问题,也在进一步的促进了网络信息化教学方式的快速的发展工作。相较于之前的人才教育和培养工作之,存在这许多的问题和局限性。在学生信息管理方面通过线下管理的形式进行学生信息的管理工作,在此过程之存在着一定的局限性和低效性,往往一些突发的问题导致其工作出现错误。导致相关的教育工作受到了一定的阻碍。在学生信息和学生成绩的管理方面,往常的教育模式之下都是采用的是人工线下的进行管理和整理工作,在这一过程之存在这一定的不安全和低效性,面对与学生基数的越来越大,学生的信息管理也在面领着巨大的挑战,管理人员面领着巨大的学生信息的信息量,运用之前的信息管理方式往往会在统计和登记上出现错误的情况的产生,为后续的管理工作造成了一定的困难。然而通过信息化的管理方式进行对学生信息的管理不仅可以避免这些错误情况的产生还可以进一步的简化学生信息管理工作的流程,节约了大量的人力和物力的之处。在线答题系统的实现不仅给学生的信息管理工作和在线考试带来了方便也进一步的促进了教育事业信息化的发展,从而实现高效化的教学工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值