HiRes-LLaVA

BEI III

已于 2024-10-28 16:45:58 修改

阅读量570

点赞数 10

分类专栏： MLLMs论文精读文章标签：计算机视觉人工智能深度学习

于 2024-09-22 12:39:34 首次发布

本文链接：https://blog.csdn.net/m0_56711618/article/details/142361026

版权

5 篇文章

订阅专栏

现有的资源高效方法，如滑动窗口技术，虽然能够将高分辨率图像分割成较小的补丁并进行处理，但在处理跨越多个补丁的物体时，通常会降低识别精度。

提出了 HiRes-LLaVA，这是一种在不破坏原始上下文和空间几何形状的情况下将高分辨率数据集成到 LVLM 中的有效方法。

用于评估模型在处理切片方法导致的上下文碎片化方面的能力，包括识别、位置和计数任务

构建过程有三步：

a. 实体抽样: 从预定义的实体集中选择一个或两个实体；

b. 图像生成: 将选定的实体放置在从空白图像的九个预定义位置, 图像会被分成4块；

c. QA 对生成: 根据生成的图像、实体、类别和位置，我们可以自动生成问答对（QA）。QA包含三个不同的任务，即识别、定位和计数。

评估指标：

整体框架：

视觉编码器两个分支输入
- Low-Resolution Input:通过 CLIP-ViT 处理低分辨率图像以提取全局特征
- High-Resolution Slice用于高分辨率图像以捕获细粒度细节
SliceRestore Adapter

该组件通过捕获局部和全局信息将切片特征恢复为整个特征，然后将整个特征分割回切片

SRA的三个步骤：
- Capturing:用两个Fusion模块来捕获局部和全局信息，局部用3*3内核的单层卷积，全局对特征downsample然后用自注意力再上采样回原来的大小。于是得到增强的特征
- Merging: Pi->Hi->F 意义是恢复原始输入特征

动机：高分辨率图像需要处理更多的视觉标记，从而导致很大一部分计算负载。现有的解决方案，有例如 Q-Former ：

Q-Former工作原理：Q-Former使用固定数量的查询（queries）通过交叉注意力机制来压缩和捕获视觉特征。
- 缺点：缺乏位置信息：由于使用的是固定查询，丢失了位置信息，这对于需要空间关系和精确位置的任务表现不佳。高训练开销：训练Q-Former需要更多的数据和更长的训练时间，这在数据稀缺的领域是一个挑战。
- 优点：能够在计算上较为经济地处理不同分辨率的图像，有效地捕获视觉信息。
为了解决Q-Former 缺点，文章提出Self-Mining Sampler：

工作原理：Self-Mining Sampler使用平均池化的切片（sliced patches）作为查询，而不是固定的可学习查询。

优点：保留原始上下文和位置信息：通过使用平均池化的切片作为查询。

与Q-former相比，训练开销低。

- 视觉特征的二维重塑：首先，将视觉编码器（如 CLIP-ViT）输出的视觉特征从一维形式（P ∈ R^L×D）重塑为二维形式（H × W × D），其中 L = H × W。这一步骤的目的是为了更好地保留图像的空间结构信息。
- 平均池化：接下来，使用大小为 S × S 的池化核对重塑后的视觉特征进行平均池化。这一步骤的目的是压缩视觉特征，减少计算量，同时保留重要的空间信息。
- 交叉注意力机制：最后，使用交叉注意力机制（Cross-Attn(P_c, P)）来计算最终的压缩特征。通过这种方式，Self-Mining Sampler 能够在保留原始上下文和位置信息的同时，有效地压缩视觉特征。