斯坦福局部对齐技术：大幅提升CLiP、SigLIP及VLM模型性能！

最新推荐文章于 2025-03-21 09:53:22 发布

程序猿李巡天

最新推荐文章于 2025-03-21 09:53:22 发布

阅读量1.5k

点赞数 30

文章标签：人工智能大数据 llama 计算机视觉 milvus

本文链接：https://blog.csdn.net/m0_59235945/article/details/143192525

版权

paper: https://arxiv.org/pdf/2410.11087v1

摘要

视觉语言模型（VLMs）近年来获得了越来越多的应用，但许多模型仍在基本的空间推理上存在错误。这可能是由于VLMs使用的预训练视觉主干网络，尤其是那些仅具有图像级监督和最小归纳偏置的视觉变换器（ViTs），未能在图像的每个位置编码类别内容。为了解决这一问题，本研究提出了一种新的后训练阶段，称为局部对齐，以及一种新的微调过程，叫做MaskEmbed。MaskEmbed使用掩码重建损失来学习每个图像片段的语义贡献。实验结果表明，局部对齐改进了模型在补丁级语义分割任务上的性能，特别是对使用图像描述对进行训练的强大主干（如CLIP和SigLIP）。进一步研究显示，局部对齐的主干在各种基准测试中提高了性能，尤其是在涉及空间理解的任务（如RefCOCO、OCID-Ref、TallyQA、VSR、AI2D）。因此，可以有效地通过局部对齐阶段学习局部语义提取，这一过程与现有VLMs使用现成视觉主干网络的训练方案相辅相成。

方法

Masking方法

考虑到只需要提取丰富的全局表示而无需特定区域的信息以理解图像，可以通过遮掩来实现。通过比较遮掩单个片段前后的输出，获取该区域的内容信息。为此，可以采用加法近似法：如果模型的输出是一个向量，可以为每个片段学习与之相同大小的向量，并以部分求和近似遮掩后的输出。

提议的方法

引入MaskEmbed，这一精细调优程序旨在增强模型的局部特征提取能力。MaskEmbed通过重建遮掩视图来学习每个片段的语义，采用表达性重建函数，并通过自我监督精细调优预训练模型来实现。

实验

视觉中心实验

为了评估局部对齐的有效性，进行了无复杂VLM系统计算的基本实验。通过语义分割启发的探测基准测试，探讨了预训练模型及其局部对齐版本在不进行任务特定微调的情况下，捕捉本地语义信息的能力。

探测基准

语义分割是一种测试ViT是否编码图像局部语义的自然任务。将其简化为补丁级多标签分类问题。在ViT的输出表示之上创建小的输出头，并训练其通过二元交叉熵（BCE）损失预测每个补丁中的标签联合。

视觉语言实验

通过训练一系列VLMs及对比性能，局部对齐显示在多种基准测试中有所提升，尤其是在涉及空间理解的任务中，如RefCOCO、OCID-Ref、TallyQA、VSR、AI2D。

结果

通过雷达图的形式展示了标准化基准测试的结果，即使在更大的数据混合中，经过局部对齐的背骨模型也显示出一致的改进，尤其在涉及文本理解、图表理解和定位任务的基准测试中。

讨论

在研究中，提出了将局部对齐作为ViT的后训练阶段，采用MaskEmbed进行具体实施并展示改进。局部特征提取的改进相对高效，仅需自我监督。这一方法为VLMs提供了一种高效提升空间理解能力的方法，尤其对于采用高分辨率视觉后骨骼（如CLIP和SigLIP）训练的模型。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述