【CVPR2025】多模态+视觉增强+大模型

最新推荐文章于 2025-04-07 13:05:24 发布

程序猿李巡天

最新推荐文章于 2025-04-07 13:05:24 发布

阅读量523

点赞数 4

文章标签： microsoft 人工智能深度学习机器学习数据库

本文链接：https://blog.csdn.net/m0_59235945/article/details/146415248

版权

研究背景

近年来，多模态大语言模型（MLLMs）在计算机视觉和自然语言处理领域取得了显著进展，广泛应用于图像描述、视觉问答等任务。然而，这些模型在实际应用中常出现物体幻觉问题，即生成的文本描述与图像中的实际物体不匹配。这主要是由于模型在推理过程中过度依赖语言先验，而在模态融合过程中对视觉信息的关注不足，导致生成内容与视觉输入不一致，尤其在高精度应用如医疗诊断和自动驾驶中存在潜在风险。

文章贡献

本文提出了一种新的幻觉减轻方法——视觉增强融合（VAF），其主要贡献包括：

识别出对比解码方法在减轻幻觉时对生成内容质量和模型推理速度的负面影响。
分析了MLLMs中的模态融合机制，指出其对视觉信息的关注不足。
引入VAF方法，通过增强模态融合过程中对视觉信号的关注，有效减轻物体幻觉问题，同时保持推理速度、生成内容的连贯性和准确性。
在多个物体幻觉基准测试中验证了VAF方法的显著性能提升。

方法

对比解码策略

对比解码策略是一种广泛使用的减轻物体幻觉的方法，通过减少对语言先验的过度依赖，确保生成的内容与视觉输入紧密相关，从而产生上下文准确的输出。其中，视觉对比解码（VCD）是一种代表性方法，通过对比原始视觉输入和扰动视觉输入（如添加高斯噪声掩码）的输出分布，来减轻模型对语言先验的过度依赖。然而，这些方法存在两个主要局限性：一是可能破坏生成内容的连贯性和准确性；二是需要分别处理原始输入和对比输入，大大增加了推理时间。

视觉增强融合

为克服对比解码策略的缺陷，本文提出了视觉增强融合（VAF）方法，其核心思想是在模型的中间层（模态融合主要发生的地方）增强对视觉信号的关注，减少对语言模态的偏见。VAF方法包括以下两个关键组件：

(1) 注意力重新分配（Attention Redistribution）在模型的中间层（第8层到第15层），通过修改注意力得分矩阵来调整注意力权重，增强对视觉特征的关注，同时抑制对系统提示的过度关注。具体方法如下：

注意力得分矩阵的调整：对于每个注意力头，通过增强系数α和抑制系数β来调整注意力得分矩阵。增强系数α用于增强对视觉特征的关注，抑制系数β用于减少对系统提示的不必要关注。
增强和抑制掩码矩阵的定义：增强掩码矩阵用于引导对视觉特征的关注，抑制掩码矩阵用于减少对系统提示的关注。通过这两个掩码矩阵，可以精确地调整注意力分配，使模型在模态融合过程中更加关注视觉信息。

(2) 视觉感知限制（Visual Perception Restriction）增强中间层所有注意力头的视觉注意力可能会过于激进并影响内容生成，因此提出选择性增强策略。具体来说，识别并隔离那些对视觉信息高度敏感的注意力头（称为视觉感知头），仅对这些头进行视觉注意力增强。这样既能确保更好地利用视觉信息，又能保持整体模型性能，避免对生成内容质量的负面影响。

实验

实验设置：在多个数据集上进行实验，包括POPE、MME、NoCaps等，评估指标涵盖准确率、精确率、召回率、F1分数、CIDEr分数等。选择LLaVA-v1.5-7B、LLaVA-v1.5-13B和Qwen-VL-7B等线性投影架构的MLLMs作为实验模型，并与VCD和ICD等基线方法进行对比。
实验结果：
- 幻觉减轻效果：在POPE和MME等多个基准测试中，VAF方法显著减轻了幻觉问题，且在不同MLLMs上均优于VCD和ICD方法。
- 生成内容连贯性：与VCD和ICD方法相比，VAF方法对生成内容的质量影响极小，能有效保持预测结果的连贯性和准确性。
- 推理速度影响：VAF方法几乎不影响多模态大语言模型的推理速度，而VCD和ICD方法由于需要处理对比输入样本，推理时间几乎翻倍。

消融研究：通过在不同数据集和参数设置下进行实验，验证了VAF方法中各个组件的贡献。例如，研究了增强系数α对模型性能的影响，发现当0<α<0.25时，模型幻觉得到有效抑制；当α超过0.25时，性能开始下降。还研究了视觉感知限制机制对幻觉减轻和内容质量的影响，结果表明限制注意力重新分配到视觉感知头能更有效地保持生成内容的质量。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述