论文与代码分析|| EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

洋芋焖土豆

已于 2024-07-22 10:25:32 修改

阅读量2.1k

点赞数 37

分类专栏：缺陷检测文章标签：目标检测论文笔记

于 2024-07-16 16:19:33 首次发布

本文链接：https://blog.csdn.net/weixin_42355902/article/details/139767865

版权

文章目录

EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies

$\frac{+\infty}{2}=\sum\limits^{+\infty}$

https://github.com/rximg/EfficientAD

Summary

提出了一个简称PDN的高效的网络结构。
提出了能高效训练教师-学生网络的困难特征loss。
实现了一个基于自编码器的有效的逻辑缺陷检测。

Method(s)

Efficient Patch Descriptors

提取特征，设计了一个PDN网络作为特征提取
在这里插入图片描述
EfficientAD-S教师网络结构，学生网络具有相同的架构，但在Conv-4层有768个内核，而不是384个内核。填充值为3表示在输入要素地图的每个边框上分别附加三行或三列零。

每个输出神经元具有33×33个像素的感受野，因此每个输出特征向量描述一个33×33的patch
相比于之前的S-T方法只使用了很少的卷积层的特征，这个提升了效率
PDN生成的特征向量仅依赖于其各自的33×33块中的像素，确保了图像一部分中的异常不会触发其他遥远部分中的异常特征向量

Lightweight Student–Teacher

对于异常特征向量的检测，使用了学生-教师方法，其中教师网络、学生网络是PDN（推理不到一毫秒的时间）。此外，这种轻量级的师生方法对缺乏以前方法所使用的技术来提高异常检测性能，如合多个教师和学生，使用来自层的金字塔的特征，以及使用学生和教师网络之间的架构不对称。

在标准的S-T框架中，增加训练集可以提高学生在异常情况下模仿老师的能力但降低了异常检测的性能，而减少训练集可能会抑制学生网络对正常图像重要信息的学习

因此，引入了训练损失，与Online Hard Example Mining类似，其将学生的loss限制在图像中最相关的部分，提出了hard feature loss，它只使用损失最大的输出元素进行反向传播。

标准S-T方法的loss 计算：
$D_{c,w,h}=(T(I)_{c,w,h}-S(I)_{c,w,h})^{2}$ ，T表示教师网络，S表示学生网络，I表示输入图像，cwh分别代表通道数、图像宽、图像高

基于 $p_{hard}∈[0，1]$ ，比如取 $d_{hard}=0.999$ 。取 $D_{c,w,h}\geq d_{\mathrm{hard}}$ 的部分参与 $L_{hard}$ 计算。将 $d_{hard}$ 设置为0将产生最初的S-T损失。在实验中，我们将 $d_{hard}$ 设置为0.999，这对应于平均使用D的三个维度中每个维度中的10%的值进行反向传播。这样的loss更关注于产品的主体区域。

111
在推理过程中，异常分数图 $M_{w,h}=C^{-1}\sum_{c}D_{c,w,h}$

由于这个hard feature loss，抑制了了背景区域的假正例。

在标准的S-T框架中，教师在ImageNet上进行预训练，学生没有接受关于该预训练数据集的培训，而只接受了关于的正常图像训练。在每个训练步骤中，我们ImageNet数据集中采样随机图像P，在我们的例子中是ImageNet。计算学生的损失为：
$L_{\mathrm{ST}} = L_{\mathrm{hard}} + (CWH)^{-1}\sum_{c}\|S(P)_{c}\|_{F}^{2}.$