​ICLR 2025 | 无需训练!大幅增强多模态大模型对微小视觉细节的感知

746ee57bb5361a7608f2a494b11e70d9.gif

fd4e7b8baec7c0e9c240203cdfe76a62.png

2ba2628686bc3240f372f1243afc22b3.png

简介

在本研究中,我们针对多模态大语言模型(MLLM)在辨识微小视觉信息时的局限性,提出了一套无需额外训练的“可视化干预”方法,巧妙地挖掘并利用模型自身的内部知识(注意力与梯度信息),从而提升模型对小尺度目标的感知能力。

具体而言,我们设计了三种自动裁剪方案,分别根据模型内在的注意力分布、梯度对目标位置的敏感性,以及组合利用这两类内部信号来确定最具辨识度的局部区域。在推理过程中,这些方法会围绕模型潜在的关注焦点动态地产生更“聚焦”的视图,帮助模型在回答视觉问题时忽略干扰并放大关键细节。

有趣的是,这些裁剪策略并不依赖针对性的数据标注或额外训练:它们仅依据模型原生的注意力机制和梯度反馈,即可更精准地定位微小目标所在。如此一来,我们不仅保留了通用型 MLLM 在海量数据中学习到的知识,还能在关键任务(如医学图像分析、安全监控等)中显著减少漏检小目标带来的风险。

我们在多项视觉问答基准上对该方法进行评估,结果表明,裁剪后的图像能够让 MLLM 在区分细微目标时表现更为准确和稳定,且这一增益在对小尺度目标尤其敏感的数据集上最为显著。

总而言之,这些训练无关的可视化干预手段充分利用了 MLLM 内在的多模态表征能力,为解决视觉细节缺失和小目标识别不佳的问题提供了一条灵活、高效且通用的新思路。

370d126f88719d6d2e55e84a194f0342.png

论文链接:

https://arxiv.org/abs/2502.17422

代码链接:

https://github.com/saccharomycetes/mllms_know

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值