本文作者提出了一个针对异常检测和定位的残差网络结构,叫做Prototypical Residual Network (PRN)。PRN由2部分组成:
表示异常到正常模式的残差特征的多尺度原型,可实现可变尺寸的异常特征学习的多尺寸自注意力机制。由于在真实世界中,相比与正常数据,异常数据的样本数量有限(显著少于正常样本),异常数据细微且难以辨别,异常数据形态变换显著有多种形态,作者提出了多种异常生成策略(这种策略兼顾了可见和不可见的异常特征)。最后在,MVTec AD基准数据集上进行实验,PRN在异常检测性能和异常定位性能上,都优于无监督(如PatchCore)和监督学习(如DRA)的SOTA方法。
1.方法原理
总得采用U-Net类似的网络结构,编码器是一个预训练的ResNet-18,解码器是由上采样和卷积块组成。中间的分支三个分支都由多尺度原型、多尺度融合模块以及多尺度自注意力机制组成。损失函数为聚焦损失和平滑L1损失的总和。
1.1多尺度原型
Xn是所有正常训练样本的集合,x是正常样本,y(x)=0;x是异常样本,y(x)=1。Fij=Fj(xi)(j=1,2,3,4)代表输入图像xi的第j个输出模块,特征矩阵Fij是一个深度为cj,高度为hj,宽度为wj的张量。第j个尺度原型是Fj(Xn)中随机采样的k个特征映射。L2距离用来计算两个特征矩阵的距离。
残差表达:i个输入图像在第j个模块的对应特征矩阵Fij。通过计算在第j尺度的Fij距离最近的原型Pkj的L2范数,P*j代表由s.t.约束条件求出来的距离Fij最近的原型,Dij代表两个张量之间的逐元素欧式距离。
1.2多尺度融合
为了实现多尺度表示的信息交换,提出了多尺度融合模块。融合后的输出特征图是三个输入特征图的变换表示之和。f表示变换函数,它依赖输入特征矩阵指数r和输出特征矩阵指数j.
r=j,frj(Fir)=Fir,frj(Fir)就是特征矩阵Fir,
r<j,frj(Fir)通过深度可分离卷积对输入特征图像Fir进行下采样
r>j,frj(Fir)通过1*1卷积的双线性对输入特征图像Fir进行上采样
1.3多尺度自注意力
Cij是串联特征矩阵图,MSA将Cij分割为不同大小的切片ps={hj, hj/2, hj/4, hj/8},并计算配对大小的自注意力的不同头。不同头对应不同的patch大小。
K是关键嵌入值,V是价值嵌入值,Q是查询嵌入值,送入softmax函数得到注意力矩阵为A,表示j尺度上第i个输入图像在第s个头上的注意力矩阵。从不同大小的patch后获得特征,并连接,送入2维残差模块去获得输出Tij,N次MSA叠加送入MF模块得到最终输出T*ij
2.异常生成策略
由于在真实世界中,相比与正常数据,异常数据的样本数量有限(显著少于正常样本),异常数据细微且难以辨别,异常数据形态变换显著有多种形态,作者提出了多种异常生成策略(这种策略兼顾了可见和不可见的异常特征)。
这里作者提出2种生成异常图像的策略。第一种是在正常样本上放可见异常,使得正常图像变为异常图像,叫做扩展异常EA;第二种是在不知道异常的情况下,使用正常样本创建外分布异常图像,叫做模拟异常SA。
EA扩展异常:增强异常图像中可见的特定异常区域并将它们放在正常样本中的任何可能位置,对之进行任何处理如均衡化、色调分离、清晰化、增加对比度、翻转等,该操作成为增强操作Aug1。对额外选取的异常区域进行操作,如旋转、裁切、平移等。R与Target Areas没有重叠,则再次执行Aug2操作,直到二者重叠,得到图像C,对图像C进行二值化处理,得到真值掩码图像M,M再取反得到M-矩阵,由下图可见,输出C,M,M-并参数beta进行组和得到E。
SA模拟异常:将perlin噪声与DTD数据集中的随机纹理相乘,将这些纹理增强用于正常图像。这些异常与发现的异常有差异,将这些外分布的异常成为异源异常。将与perlin噪声相乘的异常是增广的正常图像,称为同源异常。
3.实验相关
3.1实验细节
数据集:MVTec,DAGM,BeanTech anomaly detection dataset (BTAD]),KolektorSDD2
评价指标:Image-AUROC,Pixel-AUROC,PRO,AP
3.2数据集MVTec上的异常检测和定位
定量实验:MVTec异常检测与定位结果如表1所示。在15个类别中的10个类别中实现了最高的图像AUROC (检测)和最高的像素AUROC (定位)。平均图像AUROC结果表明,本文方法比无监督SOTA提高了0.2 %,比有监督SOTA提高了3.3 %。同时,对于像素级AUROC,本文方法比无监督SOTA提高了0.9 %,比有监督SOTA提高了13.7 %。
为了全面地展示异常定位的能力,在表2中显示了两个额外的度量结果,PRO和AP。在PRO指标上,PRN比之前的无监督SOTA提高了2.2 %,比之前的有监督SOTA提高了22.8 %。这证实了PRN在同时定位大小不一的异常区域时更有效。更具挑战性的AP度量进一步展示了PRN出色的异常定位能力。在15个类中有12个类取得了较好的AP成绩,与其他类的SOTA成绩相当
在总体AP方面,我们的方法甚至比无监督的SOTA高出10.5 %,比有监督的SOTA高出52.6 %。与AP相比,这种显著的改进在很大程度上证明了PRN在正常像素和异常像素之间具有更强的区分性。我们进一步从每幅图像的推理时间(秒)和性能两个方面对基于预训练的方法进行了比较,如表3所示。I代表Image-AUROC,P代表Pixel-AUROC,O代表,PRO,A代表AP,T代表inference time per image
定性实验:定性地评估了异常定位的性能,并与最先进的方法DRAEM和PatchCore进行了比较。该模型准确地定位了异常,并且清晰地聚焦于所有的异常区域,而不管它们的大小、形状和数量。补充材料中提供了额外的定性结果。
3.3 消融实验