《VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation》CVPR2024

最新推荐文章于 2025-03-04 21:21:10 发布

夏日的盒盒

最新推荐文章于 2025-03-04 21:21:10 发布

阅读量1.4k

点赞数 25

文章标签：神经网络深度学习计算机视觉 cnn 图像分割

本文链接：https://blog.csdn.net/qq_46981910/article/details/140825903

版权

代码：https://github.com/xiaozhen228/VCP-CLIP

摘要

这篇论文提出了一种名为VCP-CLIP的视觉上下文提示模型，用于解决零样本异常分割（Zero-Shot Anomaly Segmentation, ZSAS）任务。VCP-CLIP利用大规模视觉-语言模型CLIP，通过引入视觉上下文提示来激活CLIP对异常语义的感知能力。该方法首先设计了一个Pre-VCP模块，将全局视觉信息嵌入到文本提示中，消除了对特定产品提示的需求。接着，提出了一个新颖的Post-VCP模块，根据图像的细粒度特征调整文本嵌入。在10个真实工业异常分割数据集上的广泛实验表明，VCP-CLIP在ZSAS任务上达到了最先进的性能。

拟解决的问题

零样本异常分割（ZSAS）：在没有预先定制的训练数据的情况下，准确定位和分割新产品中的异常区域。
数据隐私场景下的挑战：现有方法通常假设已知要检查的产品类别，以便设置特定于产品的文本提示，这在数据隐私场景中难以实现。
产品类别内部差异：即使是同一类型的产品，由于特定组件和生产过程的变化，也会出现显著差异，这对文本提示的设计提出了挑战。

创新之处

视觉上下文提示模型（VCP-CLIP）：提出了一种新颖的模型，通过视觉上下文提示来增强CLIP的异常语义感知能力。
Pre-VCP模块：设计了一个预处理模块，将全局视觉信息嵌入文本提示，无需特定于产品的提示。
Post-VCP模块：提出了一个后处理模块，根据细粒度的视觉特征调整文本嵌入，增强了不同模态之间的相互理解。

不同文本提示方法的比较：

(a)任务设定。(b)手动定义文本提示。(c)设计了统一的文字提示。(d)设计视觉前语境提示。

方法论

VCP-CLIP（Visual Context Prompting model based on CLIP）是一种为零样本异常分割（ZSAS）任务设计的模型，它通过引入视觉上下文提示来提升CLIP模型对异常区域的语义感知能力。

ZSAS任务的目标是在新产品上训练后，能够直接分割出未见产品的异常区域，无需针对特定产品类别的训练数据。

baseline设计

设计了一个基线模型，包括统一文本提示（Unified Text Prompting, UTP）和深度文本提示（Deep Text Prompting, DTP）。

UTP通过设计一个统一的文本提示模板来生成正常和异常的文本提示。
DTP在文本编码器的每一层中插入可训练的嵌入，以细化文本空间，更好地与细粒度的视觉语义对齐。将词嵌入表示为 [s, H, e, J] ，其中和 e 分别是对应于 [SOS] 和 [EOS] 标记的 C 维词嵌入，[SOS] 和 [EOS] 分别添加到文本提示的前后，表示句子的开始和结束。P表示嵌入向量