ICLR 2025 | 无需训练！大幅增强多模态大模型对微小视觉细节的感知

最新推荐文章于 2025-05-03 22:40:42 发布

江湖人称麻花滕

最新推荐文章于 2025-05-03 22:40:42 发布

阅读量1.6k

点赞数 46

文章标签： pdf 人工智能算法政务架构

本文链接：https://blog.csdn.net/m0_59235699/article/details/146113536

版权

01.简介

在本研究中，我们针对多模态大语言模型（MLLM）在辨识微小视觉信息时的局限性，提出了一套无需额外训练的“可视化干预”方法，巧妙地挖掘并利用模型自身的内部知识（注意力与梯度信息），从而提升模型对小尺度目标的感知能力。

具体而言，我们设计了三种自动裁剪方案，分别根据模型内在的注意力分布、梯度对目标位置的敏感性，以及组合利用这两类内部信号来确定最具辨识度的局部区域。在推理过程中，这些方法会围绕模型潜在的关注焦点动态地产生更“聚焦”的视图，帮助模型在回答视觉问题时忽略干扰并放大关键细节。

有趣的是，这些裁剪策略并不依赖针对性的数据标注或额外训练：它们仅依据模型原生的注意力机制和梯度反馈，即可更精准地定位微小目标所在。如此一来，我们不仅保留了通用型 MLLM 在海量数据中学习到的知识，还能在关键任务（如医学图像分析、安全监控等）中显著减少漏检小目标带来的风险。

我们在多项视觉问答基准上对该方法进行评估，结果表明，裁剪后的图像能够让 MLLM 在区分细微目标时表现更为准确和稳定，且这一增益在对小尺度目标尤其敏感的数据集上最为显著。

总而言之，这些训练无关的可视化干预手段充分利用了 MLLM 内在的多模态表征能力，为解决视觉细节缺失和小目标识别不佳的问题提供了一条灵活、高效且通用的新思路。

论文链接：

https://arxiv.org/abs/2502.17422

代码链接：

https://github.com/saccharomycetes/mllms_know

02.MLLMs 对大小物体感知的敏感度

在这一部分，我们主要探究多模态大语言模型在面对不同大小的视觉目标时，是否会对小尺度信息“视而不见”。

我们选取了 TextVQA 数据集作为切入点：该数据集中每个问题都有对应的真实边界框，标注了提供正确文字答案的具体位置。我们依据边界框占整张图片的相对面积，将验证集划分为“小”“中”“大”三类，观察模型在不同大小视觉概念上的识别准确度。

直觉上，如果模型的感知能力与目标大小无关，它在这三种场景中的表现应该相差无几。

但实验结果却显示，无论是零样本推理模型（如 BLIP-2、InstructBLIP）还是经过 TextVQA 训练的模型（如 LLaVA-1.5、Qwen-VL），它们对小目标的准确率都显著低于大目标，就连最新商业模型 GPT-4o 也不能幸免，足见其对小尺度视觉细节依旧存在偏差。

为了进一步确认“小尺度”是否真的是模型无法识别小目标的因果原因，我们还进行了额外的“干预实验”：在输入原始图像的同时，我们把包含正确答案位置的最小正方形区域截取出来、放大到模型可接受的分辨率，再与原始图像共同输入到模型中。这样一来，我们就能直接测量“专注裁剪”对识别效果的影响。

结果显示，特别是在小目标场景下，模型准确率都有了相当明显的提升；而在大目标场景下，这种改进相对较弱。这不仅印证了小视觉概念的存在确实会“压制”模型的识别能力，也表明简单而直接的图像裁剪方法就能在很大程度上缓解这一问题。

通过这些实验，我们得以更深入地了解 MLLM 的视觉感知局限，为后续改进小目标感知提供了思路。

▲ 表1: 在 TextVQA 任务中，MLLM 的准确率对视觉目标的大小极其敏感：当答案区域在图像中的相对面积逐渐缩小（从右到左），未裁剪的模型表现明显下降；而采用人工裁剪（human-CROP）后，小目标的识别准确率可显著提升。

03.重要发现：即使回答错误，多模态大模型的注意力位置仍然精准

在本部分，我们探讨多模态大语言模型在视觉问答时，是否能准确找到图像中的关键区域。小目标识别不佳通常有两种可能：要么模型无法顺利定位到小目标，要么虽然知道位置却无法精确识别细节。我们观察到，模型即便回答错误，依然常常关注到目标周边，说明它们确实“知道”该往哪儿看，但缺乏对局部细节的充分感知能力。

为量化这种情况，我们从 MLLM 的跨注意力机制入手：提取“答案到图像 token” 的注意力，再结合“图像 token 到图像区域”的注意力，生成对各图像区域的综合关注度。

考虑到模型也会对某些“注册”或全局信息产生注意，我们提出“相对注意力”概念，将回答问题时的注意力值与模型对同张图片进行“通用描述”时的注意力值进行对比，以突出与答题真正相关的部分。

在 TextVQA 数据集上的实验证明，无论模型回答是否正确，其对包含答案的边界框都维持较高注意力比率。这提示 MLLM 定位能力并非主要瓶颈，真正的挑战在于它们对小尺度特征的精细识别能力。

▲ 图1：在本图中，我们展示了 MLLM 在不同网络层的注意力比率（基于 TextVQA 的平均值，带 95% 置信区间）。该比率用于衡量模型对真实答案边界框的关注程度。结果显示，在多数网络层中，该比率都大于 1，意味着即便模型未能正确回答，也能聚焦到图像中与答案相关的关键区域。

04.VICROP方法

在前面章节的研究中，我们发现 MLLM 对于小尺度目标的“聚焦”能力并不差，真正的问题在于其难以清晰辨别小目标的细节。因此，本节提出一种无需额外训练的图像裁剪方法（ViCrop），以充分利用模型内部的注意力和梯度线索，实现自动化的“放大镜”式细节解析。

具体来说，我们先让模型处理一张图像与问题，提取其关键的关注区域。具体来讲，Relative Attention ViCrop（rel-att）方法通过获取模型对“回答问题”与“通用描述”这两种场景的注意力差异，锁定与问题语义最相关的图像部位。

Gradient-Weighted Attention ViCrop（grad-att）则借助模型输出分布对注意力进行梯度加权，以筛除无关的注意力热点；Input Gradient ViCrop（pure-grad）更直接地利用模型对原始图像像素的梯度，找出视觉中最能影响决策的细节区域。

这些方法均会输出裁剪后的“放大图”，并与原图一同输入模型，从而让 MLLM 对关键部位做更精细的分析。具体细节请见论文以及代码。

为将这些注意力或梯度图自动转化为可用裁剪框，我们借鉴目标检测的思路，通过多种不同大小的滑窗在整幅图像上移动，寻找在“高关注度”区域上得分最高的位置；再结合基于邻域变化的启发式策略，选出最能平衡“大而全”和“小而聚焦”的最佳窗口。

针对超高分辨率图像（如大于 1K 的场景），我们采用“两阶段”方案：先将大图分块计算关注图，再拼接回原图后选取裁剪区域。

最后，我们将裁剪后的“局部放大版”与原图共同输入模型。这样，一方面可充分保留全局信息，另一方面也能让模型更好地“看清”微小细节。

▲ 图2: ViCrop 帮助 MLLM 纠正错误的示例（青色边界框显示 ViCrop 裁剪的区域）

我们将所提出的 ViCrop 方法应用于两款开源 SOTA 多模态大语言模型（InstructBLIP 和 LLaVA-1.5），并在 7 个数据集上验证了它们在“看清”小目标时的改进成效。

结果显示，ViCrop 无需任何额外训练，就能显著提高模型在细节敏感型数据集（例如 TextVQA、V*）上的回答准确率；同时，对主要包含大目标的通用数据集（如 GQA、AOKVQA、VQAv2），也几乎不会造成性能下降。

特别值得关注的是，LLaVA-1.5 在裁剪后收获的提升幅度更明显，或与其针对视觉 token 进行更深入的模型调优有关。总体来看，ViCrop 在推理阶段提供了一个简单而高效的“小目标放大镜”方案，为解决 MLLM 在小尺度识别任务中的局限带来了新的思路。

▲ 表2：ViCrop 应用于两个主流 MLLM，在不同 benchmark 下的表现

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述