零样本异常分割SAA+


  最近在做缺陷检测,发现CVPR 2023的冠军方案,SAA+,该方案实现了 zero-shot零样本异常分割,也就是我不用训练,开箱即用,这也太爽了吧!

一、测试效果展示

图一 墙壁裂缝缺陷
图二 胶囊凹陷缺陷

哇哦!还不赖

二、相关链接

论文名称:《2nd Place Winning Solution for the CVPR2023 Visual Anomaly and Novelty
Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection》
模型相关介绍
github
paper

三、优点总结

  • 零样本异常检测zero-shot anomaly segmentation,不用二次训练
  • 融合自然语言和图像本身的特点
  • 利用多模态先验知识进行异常定位
  • 基于专家领域知识和目标图像上下文,实现基础模型对异常分割的非参数自适应

四、SAA vs SAA+

  介绍SAA+模型前,先了解SAA+的前身SAA模型

4.1 SAA

图二 SAA
  • 输入
    • 图片:四个蜡烛(GT:左下角的蜡烛灯芯过长
    • Naive prompt:朴素提示,“Anomaly“
  • 处理流程
    • Anomaly Region Generator:异常区域生成器,即Grounding DINO模型,找到图片中与prompt相关的目标,实现目标检测功能,输出坐标、score
    • Anomaly Region Refiner:异常区域细化器,即SAM大模型,输入Generator生成的坐标框作为prompt,实现像素级别的图像分割功能
  • 输出
    • 输出为“Wick”,检测结果为四个灯芯异常,结果错误

4.2 SAA+

图三 SAA+
  • 输入
    • 图片:四个蜡烛(GT:左下角的蜡烛灯芯过长
    • Multi Modal Prompting:多模态提示,使用了专家领域知识目标图片上下文信息
  • 处理流程
    • Anomaly Region Generator:异常区域生成器,即Grounding DINO模型,找到图片中与prompt相关的目标,实现目标检测功能
    • Anomaly Region Refiner:异常区域细化器,即SAM大模型,输入Generator生成的坐标框作为prompt,进行分割,实现像素级别的图像分割功能
  • 输出
    • 输出为“Overlong Wick”,检测结果为左下角的蜡烛灯芯过长,结果正确

五、SAA+结构

图四 SAA+结构

  图四上半部分是SAA+总识别流程。输入图片和语言提示pL,经过生成器和细化器,得到一系列的mask图像和分数,由属性提示PP,提取属性提示中面积阈值、IOU阈值等,对多个mask图过滤,得到符合阈值条件的mask和score。图片输入另一条分支提取图片显著图,使用预训练CNN网络提取图像特征,计算特征点与周围的差异性,得到显著图Sailency Map。融合两条分支的分数,masks&scores和Sailency Map得到校准分数Refined scores,该分数同时考虑了由prompt指导分割获取的分数和图片本身特征的分数。最后分数排序,取前K个候选,得到Anomaly Map。
  整个异常分割的流程涉及到2个先验知识,分别是专家领域知识(Domain Expert Knowledge)和目标图片上下文信息(Target Image Context),分别对应图四黄色区域和蓝色区域。
  下文详细介绍整个过程中涉及的prompt。

5.1 专家领域知识(Domain Expert Knowledge)

  专家领域知识(Domain Expert Knowledge)包含两部分,异常语言提示和异常属性提示。

  • Language Prompt pL :语言提示,它可以用异常词汇来描述,如“anomaly”、“defect”,也可以具体描述缺陷类别、颜色,如“black hole”、“white bubble”
  • Property Prompt PP :属性提示,描述异常的面积、IOU等,例如“The anomaly would not exceed 0.3 object area.”。
    notice:模型只取0.3这个数值进行过滤,其他的prompt非数字信息(The anomaly would not exceed、 object area)不提取 ,也就是说在写Property Prompt的时候,对应数字的字符位置不能改变,例如修改成“The anomaly has 0.3 object area.”,0.3变成了第四字符位置,程序会报错。

pL和PP案例展示:

#作者的蜡烛案例
textual_prompts = ['color defect. hole. black defect. wick hole. spot. ', ‘candle’]
property_text_prompts = 'the image of candle have 4 similar candle, with a maximum of 1 anomaly. The anomaly would not exceed 0.3 object area. ’

#图一墙壁裂缝案例
textual_prompts = ['color defect. crack. black defect. curve. ', ‘wall’]
property_text_prompts = 'the image of wall have 1 similar wall, with a maximum of 1 anomaly. The anomaly would not exceed 0.3 object area. ’

#图二胶囊案例
textual_prompts = ['color defect. crack. black defect. curve. ', ‘wall’]
property_text_prompts = 'the image of wall have 1 similar wall, with a maximum of 1 anomaly. The anomaly would not exceed 0.3 object area. ’

5.2 目标图片上下文信息(Target Image Context)

  目标图片上下文信息,包含显著性提示(Sailency Prompt,即ps)和置信度提示(Confidence Prompt,即pc),这两个prompt不需要人为输入,而是直接从图片中提取到

  • Sailency Prompt:显著提示,它是从图片中学习,模仿人类直觉,能识别出异常区域和周围区域的差异。使用预训练卷积神经网络提取特征,计算每个特征点与相邻N个特征点的余弦相似度距离,获取显著图,显著图的计算公式如图五。
    在这里插入图片描述
图五 显著图计算方法
  • Anomaly Confidence as Prompt:由置信度排序取K个候选,计算Anomaly Map

六、How to use

安装方法可参考github,这里不具体写了,有问题可以评论区讨论
码文不易,记得点赞、收藏✌️

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值