《VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation》CVPR2024

代码:https://github.com/xiaozhen228/VCP-CLIP

摘要

这篇论文提出了一种名为VCP-CLIP的视觉上下文提示模型,用于解决零样本异常分割(Zero-Shot Anomaly Segmentation, ZSAS)任务。VCP-CLIP利用大规模视觉-语言模型CLIP,通过引入视觉上下文提示来激活CLIP对异常语义的感知能力。该方法首先设计了一个Pre-VCP模块,将全局视觉信息嵌入到文本提示中,消除了对特定产品提示的需求。接着,提出了一个新颖的Post-VCP模块,根据图像的细粒度特征调整文本嵌入。在10个真实工业异常分割数据集上的广泛实验表明,VCP-CLIP在ZSAS任务上达到了最先进的性能。

拟解决的问题

  • 零样本异常分割(ZSAS):在没有预先定制的训练数据的情况下,准确定位和分割新产品中的异常区域。
  • 数据隐私场景下的挑战:现有方法通常假设已知要检查的产品类别,以便设置特定于产品的文本提示,这在数据隐私场景中难以实现。
  • 产品类别内部差异:即使是同一类型的产品,由于特定组件和生产过程的变化,也会出现显著差异,这对文本提示的设计提出了挑战。

创新之处

  1. 视觉上下文提示模型(VCP-CLIP):提出了一种新颖的模型,通过视觉上下文提示来增强CLIP的异常语义感知能力。
  2. Pre-VCP模块:设计了一个预处理模块,将全局视觉信息嵌入文本提示,无需特定于产品的提示。
  3. Post-VCP模块:提出了一个后处理模块,根据细粒度的视觉特征调整文本嵌入,增强了不同模态之间的相互理解。
(a) 现有的基于 CLIP 的方法。(b) VCP-CLIP

不同文本提示方法的比较:

(a)任务设定。(b)手动定义文本提示。(c)设计了统一的文字提示。(d)设计视觉前语境提示。

 

方法论

VCP-CLIP(Visual Context Prompting model based on CLIP)是一种为零样本异常分割(ZSAS)任务设计的模型,它通过引入视觉上下文提示来提升CLIP模型对异常区域的语义感知能力。

ZSAS任务的目标是在新产品上训练后,能够直接分割出未见产品的异常区域,无需针对特定产品类别的训练数据。

baseline设计

设计了一个基线模型,包括统一文本提示(Unified Text Prompting, UTP)和深度文本提示(Deep Text Prompting, DTP)。

  • UTP通过设计一个统一的文本提示模板来生成正常和异常的文本提示。
  • DTP在文本编码器的每一层中插入可训练的嵌入,以细化文本空间,更好地与细粒度的视觉语义对齐。将词嵌入表示为 [s, H, e, J] ,其中和 e 分别是对应于 [SOS] 和 [EOS] 标记的 C 维词嵌入,[SOS] 和 [EOS] 分别添加到文本提示的前后,表示句子的开始和结束。P表示嵌入向量

其中s0​ 和 𝑒0​ 分别是[SOS]和[EOS]的词嵌入,𝑁𝑡 是文本编码器层数,TextProj 和 Norm 分别表示最终文本投影和LayerNorm层。 

VCP-CLIP设计

使用 Pre-VCP 模块将图像的全局特征编码到文本提示中。Post-VCP模块接收来自图像编码器的补丁级特征和文本编码器的文本特征作为输入来生成异常图。

Pre-VCP module

通过CLIP模型的跨模态交互能力,文本提示与图像特征在联合嵌入空间中进行比较,以确定图像区域与文本描述的一致性。

图像编码器的[CLS]标记的嵌入包含丰富的全局图像特征,将全局图像特征与baseline中的可学习向量相结合,以促进与统一的类别上下文的融合。具体来说,通过一个小型神经网络Mini-Net初步将全局图像特征映射到词嵌入空间。

公式: 

 其中x式全局图像特征,v是可学习类别向量,z=x+v

最终的文本提示:

 Post-VCP

在文本编码器的输出上进一步调整文本嵌入,以便更好地与细粒度的视觉特征对齐。利用图像的细粒度特征来调整文本嵌入,从而增强模型对异常区域的定位能力。

具体流程如下:

结论

VCP-CLIP作为一种新型的零样本异常分割方法,在10个真实世界的工业异常分割数据集上展示了其优越的性能。该方法通过视觉上下文提示有效地提高了模型对新产品的泛化能力,减少了对特定文本提示的依赖,并在ZSAS任务中实现了最先进的性能。

  • 25
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值