HiRes-LLaVA

目录

研究动机

主要贡献

EntityGrid-QA Benchmark

HiRes-LLaVA framework

动态高分辨率切片

研究动机

现有的资源高效方法,如滑动窗口技术,虽然能够将高分辨率图像分割成较小的补丁并进行处理,但在处理跨越多个补丁的物体时,通常会降低识别精度。

提出了 HiRes-LLaVA,这是一种在不破坏原始上下文和空间几何形 状的情况下将高分辨率数据集成到 LVLM 中的有效方法。

主要贡献

  1. EntityGrid-QA Benchmark

用于评估模型在处理切片方法导致的上下文碎片化方面的能力,包括识别、位置和计数任务

cfdf732f6bfb491a8644f5bca3fa6ef5.png

构建过程有三步:

a. 实体抽样: 从 预定义的实体集中选择一个或两个实体;

b. 图像生成: 将选定的实体放置在从空白图像 的九个预定义位置, 图像会被分成4块;

c. QA 对生成: 根据生成的图像、实体、类别和位置,我们可以自动生成问答对(QA)。QA包含三个不同的任务,即识别、定位和计数。

评估指标:

633638cf318948b3ae30cfa5b7576b02.png

  1. HiRes-LLaVA framework

094915d20c6d42fc82c37308ffc45ee3.png

整体框架:

  • 视觉编码器两个分支输入
    • Low-Resolution Input:通过 CLIP-ViT 处理低分辨率图像以提取全局特征
    • High-Resolution Slice用于高分辨率图像以捕获细粒度细节
  • SliceRestore Adapter

052f5cb6a9f8431588424288088764fe.png

该组件通过捕获局部和全局信息将切片特征恢复为整个特征,然后将整个特征分割回切片

  •  SRA集成在CLIP-ViT的自注意力层

df4b673d32c94bc984838a93638fcfe5.png

  • SRA的三个步骤:
    • Capturing:用两个Fusion模块来捕获局部和全局信息,局部用3*3内核的单层卷积,全局对特征downsample然后用自注意力再上采样回原来的大小。于是得到增强的特征
    • Merging: Pi->Hi->F 意义是恢复原始输入特征c1d3643a37a345e3aef91e8bca3c3442.png

      • Slicing:把增强特征\bar{F }切回原始格式得到\bar{P }
  • Self-Mining Sampler

动机:高分辨率图像需要处理更多的视觉标记,从而导致很大一部分计算负载。现有的解决方案, 有例如 Q-Former :

  • Q-Former工作原理:Q-Former使用固定数量的查询(queries)通过交叉注意力机制来压缩和捕获视觉特征。
    • 缺点:缺乏位置信息:由于使用的是固定查询,丢失了位置信息,这对于需要空间关系和精确位置的任务表现不佳。高训练开销:训练Q-Former需要更多的数据和更长的训练时间,这在数据稀缺的领域是一个挑战。
    • 优点:能够在计算上较为经济地处理不同分辨率的图像,有效地捕获视觉信息。
  • 为了解决Q-Former 缺点,文章提出Self-Mining Sampler:

    工作原理:Self-Mining Sampler使用平均池化的切片(sliced patches)作为查询,而不是固定的可学习查询。

    优点:保留原始上下文和位置信息:通过使用平均池化的切片作为查询。

    与Q-former相比,训练开销低。

8feb41844836459c8585b35841cc62f8.png

    • 视觉特征的二维重塑:首先,将视觉编码器(如 CLIP-ViT)输出的视觉特征从一维形式(P ∈ R^L×D)重塑为二维形式(H × W × D),其中 L = H × W。这一步骤的目的是为了更好地保留图像的空间结构信息。
    • 平均池化:接下来,使用大小为 S × S 的池化核对重塑后的视觉特征进行平均池化。这一步骤的目的是压缩视觉特征,减少计算量,同时保留重要的空间信息。
    • 交叉注意力机制:最后,使用交叉注意力机制(Cross-Attn(P_c, P))来计算最终的压缩特征。通过这种方式,Self-Mining Sampler 能够在保留原始上下文和位置信息的同时,有效地压缩视觉特征。
  1. 动态高分辨率切片

  • 动态切片高分辨率图像,而不预定义宽高比候选,支持各种分辨率图片的输入。
  • 通过设置最大切片数M,允许图像根据基础分辨率自动选择最佳边界框,确保详细信息的保留而不过度增加模型的计算负担。

实验结果

  1. on 11 popular benchmarks

e30e8afc18a2438e83e41eeb536ed3c1.png

2. on EntityGrid-QA

8a530d68cfa748b8963f8f5a92d2a3ff.png

3. 消融实验

a24c827dc2e74448abdc246a6d43fac4.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值