论文与代码分析|| EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

+ ∞ 2 = ∑ + ∞ \frac{+\infty}{2}=\sum\limits^{+\infty} 2+=+

https://github.com/rximg/EfficientAD

Summary

  • 提出了一个简称PDN的高效的网络结构。
  • 提出了能高效训练教师-学生网络的困难特征loss。
  • 实现了一个基于自编码器的有效的逻辑缺陷检测。

Method(s)

Efficient Patch Descriptors

提取特征,设计了一个PDN网络作为特征提取
在这里插入图片描述
EfficientAD-S教师网络结构,学生网络具有相同的架构,但在Conv-4层有768个内核,而不是384个内核。填充值为3表示在输入要素地图的每个边框上分别附加三行或三列零。
在这里插入图片描述

  1. 每个输出神经元具有33×33个像素的感受野,因此每个输出特征向量描述一个33×33的patch
  2. 相比于之前的S-T方法只使用了很少的卷积层的特征,这个提升了效率
  3. PDN生成的特征向量仅依赖于其各自的33×33块中的像素,确保了图像一部分中的异常不会触发其他遥远部分中的异常特征向量

Lightweight Student–Teacher

对于异常特征向量的检测,使用了学生-教师方法,其中教师网络、学生网络是PDN(推理不到一毫秒的时间)。此外,这种轻量级的师生方法对缺乏以前方法所使用的技术来提高异常检测性能,如合多个教师和学生,使用来自层的金字塔的特征,以及使用学生和教师网络之间的架构不对称。

在标准的S-T框架中,增加训练集可以提高学生在异常情况下模仿老师的能力但降低了异常检测的性能,而减少训练集可能会抑制学生网络对正常图像重要信息的学习

因此,引入了训练损失,与Online Hard Example Mining类似,其将学生的loss限制在图像中最相关的部分,提出了hard feature loss,它只使用损失最大的输出元素进行反向传播。

标准S-T方法的loss 计算:
D c , w , h = ( T ( I ) c , w , h − S ( I ) c , w , h ) 2 D_{c,w,h}=(T(I)_{c,w,h}-S(I)_{c,w,h})^{2} Dc,w,h=(T(I)c,w,hS(I)c,w,h)2,T表示教师网络,S表示学生网络,I表示输入图像,cwh分别代表通道数、图像宽、图像高

基于 p h a r d ∈ [ 0 , 1 ] p_{hard}∈[0,1] phard[01],比如取 d h a r d = 0.999 d_{hard}=0.999 dhard=0.999。取 D c , w , h ≥ d h a r d D_{c,w,h}\geq d_{\mathrm{hard}} Dc,w,hdhard的部分参与 L h a r d L_{hard} Lhard计算。将 d h a r d d_{hard} dhard设置为0将产生最初的S-T损失。在实验中,我们将 d h a r d d_{hard} dhard设置为0.999,这对应于平均使用D的三个维度中每个维度中的10%的值进行反向传播。这样的loss更关注于产品的主体区域。

111
在推理过程中,异常分数图 M w , h = C − 1 ∑ c D c , w , h M_{w,h}=C^{-1}\sum_{c}D_{c,w,h} Mw,h=C1cDc,w,h

由于这个hard feature loss,抑制了了背景区域的假正例。

在标准的S-T框架中,教师在ImageNet上进行预训练,学生没有接受关于该预训练数据集的培训,而只接受了关于的正常图像训练。在每个训练步骤中,我们ImageNet数据集中采样随机图像P,在我们的例子中是ImageNet。计算学生的损失为:
L S T = L h a r d + ( C W H ) − 1 ∑ c ∥ S ( P ) c ∥ F 2 . L_{\mathrm{ST}} = L_{\mathrm{hard}} + (CWH)^{-1}\sum_{c}\|S(P)_{c}\|_{F}^{2}. LST=Lhard+(CWH)1cS(P)cF2.

Logical Anomaly Detection

在这里插入图片描述
在这里插入图片描述

上图描述了EfficientAD的异常检测方法。它由前面提到的师生对和一个自动编码器组成。自动编码器被训练来预测教师的输出。

A的loss计算:
L A E = ( C W H ) − 1 ∑ c ∥ T ( I ) c − A ( I ) c ∥ F 2 L_{\mathrm{AE}}=(CWH)^{-1}\sum_{c}\|T(I)_{c}-A(I)_{c}\|_{F}^{2} LAE=(CWH)1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值