【工业缺陷检测/工业质检】无监督检测(异常检测Anomaly Detection)与zero-shot零样本检测的区别与定义
工业质检领域,尤其是基于图像的工业缺陷检测领域,缺陷样本的收集可能非常困难,也就促生了无监督异常检测与zero-shot检测的研究方向,他们都不需要目标场景下的缺陷样本,因此大家可能会对他们的概念和具体使用场景存在疑问。 因此本文重点对这两个任务进行介绍和对比。
目录
主要区别总结
预先定义:假设当前有2个场景,分别为A与B,A场景已有完备的数据收集,B场景几乎没有缺陷数据,但正常样本好收集。
- 无监督异常检测不需要A场景的数据,但需要目标场景B的正常样本训练,便可以实现B场景下的异常区域检测,可以给出异常的mask和样本的异常得分,但无法给出具体的缺陷类别。
- zero-shot零样本检测需要A场景的大量数据学习特征,但是不需要B场景的任何图像数据(正负样本都不要),便可以根据文本描述检测B场景的缺陷。
一、定义
主要针对基于图像的工业质检领域,不考虑时序类异常检测等。
1. 无监督异常检测
在仅含正常产品图像(无缺陷标注)的情况下,通过学习正常样本的视觉特征分布(如图像结构、纹理、几何形状),检测与正常模式显著偏离的缺陷样本(如表面划痕、污渍等)。
核心目标:从大量正常图像中识别“非预期的异常模式”,无需任何缺陷样本标注。
2. 零样本学习
在训练阶段未见过目标缺陷类别(如新类型缺陷)的情况下,利用基类缺陷(已标注的常见缺陷,如“划痕”“凹陷”)的图像数据和新缺陷的辅助信息(如缺陷文本描述、属性标签、行业标准文档),建立基类视觉特征与新缺陷语义描述的关联,实现对新缺陷类别的分类或定位。
核心目标:识别训练时未接触过的新缺陷类型(如“边缘毛刺”“焊点虚接”等新定义的缺陷),依赖语义层面的跨类别迁移。
二、工业质检图像场景对比表
对比维度 | 无监督异常检测(工业质检图像) | 零样本学习(工业质检图像) |
---|---|---|
核心目标 | 检测图像中的异常区域或样本(二分类:正常vs异常),不区分具体缺陷类型(如“是否有缺陷”)。 | 对图像中的缺陷归属到未见过的具体新类别(多分类:如“边缘毛刺”“焊点偏移”等新定义的缺陷类别)。 |
数据要求 | - 输入:仅需正常产品的图像。 - 输出标注:无需缺陷标签,仅需图像像素级或样本级的“是否异常”标签(实际中常通过人工筛选少量正常样本训练)。 | - 输入: 1. 基类数据:已标注的常见缺陷图像(如“划痕”“凹陷”的图像及类别标签); 2. 新类辅助信息:新缺陷的文本描述(如“边缘不规则凸起”)、属性列表(如“位置:边缘;形状:凸起”)或行业标准文档。 - 输出标注:新缺陷的类别标签需通过语义关联定义。 |
技术方法(视觉层面) | - 图像重构模型:如Autoencoder(AE)、变分自编码器(VAE),正常图像重构误差小,缺陷区域重构误差大; - 特征空间密度估计:如基于GAN的密度估计(正常样本在特征空间聚集,异常样本稀疏); - 视觉预训练:利用大规模无缺陷图像预训练模型(如ViT)提取正常特征,异常样本在特征空间远离聚类中心。 | - 视觉-语义对齐: 1. 跨模态模型:如CLIP(连接图像特征与文本描述,将新缺陷文本编码为视觉特征空间的向量); 2. 属性嵌入模型:将基类缺陷的视觉特征与属性(如“颜色”“形状”)关联,通过新缺陷的属性描述生成预测特征(如ALE算法); 3. 图神经网络:构建缺陷类别-属性知识图谱,通过图结构推断新缺陷的视觉特征分布。 |
工业质检典型场景 | - 场景1:锂电池表面缺陷检测:仅用正常电池图像训练模型,检测生产线上的划痕、污渍等缺陷(无需提前收集缺陷样本); - 场景2:电路板焊点检测:通过正常焊点的图像分布,识别焊点缺失、短路等异常(缺陷类型已知但标注成本高)。 | - 场景1:新品类缺陷识别:某汽车零部件厂商新增“螺栓孔偏斜”缺陷类型,模型未见过该缺陷图像,但通过技术文档中“孔中心偏移>0.5mm”的描述,结合历史“孔位置”“尺寸”等基类缺陷特征,分类该新缺陷; - 场景2:跨产品线质检:同一模型处理不同型号产品时,通过新型号的规格说明(辅助信息)识别专属缺陷(如“新型号卡扣缺角”)。 |
输出结果 | - 像素级:异常区域定位(如掩码标记缺陷位置); - 样本级:异常分数(如重构误差阈值判断是否为缺陷样本)。 | - 类别级:缺陷类别标签(如“螺栓孔偏斜”“卡扣缺角”); - 可能附带定位结果(结合目标检测框架,如ZSL+YOLO)。 |
核心假设 | - 正常样本的视觉特征具有高度一致性(如纹理、形状、颜色分布),缺陷样本是低概率出现的“非一致模式”; - 缺陷样本数量极少,无法获取或仅需少量即可检测。 | - 基类缺陷与新缺陷共享可迁移的视觉-语义特征(如“边缘”“孔洞”等基础视觉概念),辅助信息能明确描述新缺陷的本质视觉差异(如“边缘”的“凸起”vs“凹陷”); - 新缺陷的视觉特征可通过语义映射从基类推导。 |
关键挑战 | - 正常样本的多样性(如不同光照、角度下的正常图像需覆盖足够分布); - 缺陷的“新奇性”(未见过的缺陷模式可能超出模型学习范围)。 | - 辅助信息的完整性(如文本描述是否准确映射视觉特征); - 语义鸿沟(基类与新类的视觉差异可能超出语义关联的泛化能力,如“材质差异”难以通过文本描述建模)。 |
典型模型(工业质检) | - 图像重构类:AE、VAE、GAN-based异常检测器; - 预训练特征类:基于ViT的特征提取+孤立森林(IF)、局部离群因子(LOF)。 | - 跨模态类:CLIP(微调后用于图像-文本缺陷匹配)、OFA(多模态零样本模型); - 属性类:基于属性的零样本分类器(如将缺陷属性编码为向量,与图像特征计算余弦相似度)。 |
适用缺陷类型 | - 已知类型缺陷的无标注检测(如历史生产中常见的划痕、污渍,无需标注即可检测); - 未知模式的弱监督检测(假设异常均为缺陷,不区分具体类别)。 | - 全新定义的缺陷类别(如行业新规范引入的缺陷类型,或产品线迭代产生的专属缺陷,需明确分类); - 小样本缺陷扩展(新缺陷样本极少,但可通过描述定义)。 |
三、工业质检场景核心区别总结
-
需求差异:
- 无监督异常检测解决“有没有缺陷”的问题,适用于缺陷类型已知但标注成本高的场景(如重复检测同一类产品的常见缺陷);
- 零样本学习解决“是什么缺陷”的问题,适用于缺陷类别新增或跨领域扩展的场景(如新规格产品的专属缺陷分类)。
-
数据与标注依赖:
- 无监督仅需正常图像,完全依赖“正常模式”的学习;
- 零样本需要基类缺陷的标注数据(历史缺陷类别)和新缺陷的语义描述(如技术文档、属性表),依赖“跨类别语义迁移”。
-
技术落地难点:
- 无监督需处理正常样本的多样性(如光照、角度变化)和缺陷的多形态(如不同程度的划痕);
- 零样本需确保辅助信息与视觉特征的强关联(如文本描述需准确对应图像中的视觉差异),避免语义歧义导致的分类错误。