Anomaly Detection via Reverse Distillation from One-Class Embedding

超想吃柚子

已于 2022-11-01 11:24:48 修改

阅读量1.7k

点赞数 2

文章标签：深度学习人工智能机器学习

于 2022-11-01 11:20:37 首次发布

本文链接：https://blog.csdn.net/DYCAHGCDX/article/details/127630260

版权

论文链接：点击

自学所用

提出一种反向蒸馏方式，学生网络接受教师网络的一类嵌入作为输入和目标，用以恢复教师的多尺度；

引入了一类瓶颈嵌入（OCBE）模块；

教师采用编码器和学生采用解码器，学生解码器将低维嵌入作为输入，通过恢复教师模型在不同尺度上的表示来模仿教师的行为；先蒸馏高级表示，然后是低级表示；非相似结构，教师编码器视为下采样滤波器，学生解码器视为上采样滤波器；紧凑性嵌入，馈送到学生解码器的低维嵌入充当正常模式恢复的信息瓶颈；紧凑嵌入有利于禁止异常特征作为不寻常扰动传播到学生模型，提高模型对异常的差异。

区域感知描述符；引入OCBE模块来进一步压缩特征代码；OCBE模块由多尺度特征融合块（MFF）和一类嵌入块（OCE）组成；MFF聚合了低级和高级特征，为正常模式重建构建了丰富的嵌入；OCE保留有利于学生解读教师反应的基本信息；

无监督异常检测原型是使用生成模型，如自动编码器（AE）和生成对抗网络（GAN），用于样本重建；

预训练的网络能够提取用于异常检测的判别特征，记住其无异常特征有助于识别异常样本；

问题表述：作为无异常图像的数据集（1）；作为包含正常和异常的查询数据集（2）；目标是训练一个模型来识别和定位查询数据集中的异常；在异常检测设置中，（1）（2）中的正常样本遵循相同的分布；分布外的样本被视为异常；

系统：

三个模块：一个固定的（冻结的教师网络？为什么要固定？下页红色字体已阐明）预训练教师编码器网络E；一个可训练的一类瓶颈嵌入模块；一个学生解码器D。

使用多尺度特征融合（MFF）块集成来自E的低级和高级特征，并通过一类嵌入（OCE）块将它们映射到紧凑代码上。训练期间，学生D通过最小化相似性损失L来学习模仿E的行为；推理过程中E真实地提取特征，而D输出无异常地特征；E和D对应位置的特征向量之间的低相似度意味着异常；最终的预测是通过多尺度相似度图M的累加计算出来的。

给定一个来自（1）的输入样本I，教师E提取多尺度表示；训练学生D从瓶颈嵌入中恢复特征；在测试/推理过程中，教师E提取的表示可以捕获异常样本中的异常、分布外的特征；学生解码器D无法从相应的嵌入中重建异常特征，在T-S模型中，异常表示的相似性较低，表明异常评分较高；可训练OCBE模块进一步将多尺度模式压缩到极低维空间中，用于下游正常表示重建。教师模型生成的异常会被OCBE模块抛弃。

反向蒸馏：采用编码-解码架构，知识从教师的深层提取到早期层，即高级语义知识首先传递给学生；教师编码器E的目标是提取综合表示；避免收敛到平凡的解决方案，所以要将教师E的所有参数在知识蒸馏过程中被冻结；resnet和wideresnet都可以作为网络架构。学生解码器D的架构是对称的，与E相比是反向的，反向设计有助于消除学生网络对异常的响应，而对称性使其具有与教师相同的表示维度。教师E中的下采样是通过一个内核大小1，步幅为2的卷积层实现的，学生D相应解码块采用内核大小为2，步长为2的反卷积层。

学生解码器D的目标（targets）是在训练期间模仿教师编码器E的行为；T-S模型中低级和高级特征的低相似性分别表明局部异常和区域/全局结构异常；ф表示原始数据I到一类瓶颈嵌入空间的投影；

T-S模型中的成对激活对应关系： , , 和分别代表教师和学生模型中的第k个编码和解码块。

，C、H、W表示第k层激活张量的通道数、高度和宽度；对于模型中的知识转移，余弦相似度作为损失函数，因为它能更精确地捕捉高维和低维信息中的关系。对于特征张量、，计算他们沿通道轴地向量余弦相似度损失并获得二维异常图 :

, 中的较大值表示该位置高度异常。

通过累加多尺度异常图得到学生优化的标量损失函数：，k表示实验中使用的特征层数。

一类瓶颈嵌入：

为了解决“大容量模型获得的高维描述符可能具有相当大的冗余，表示的高度自由和冗余不利于学生模型解码基本的无异常特征”的不足，引入一个可训练的一类嵌入块，将教师模型的高维表示投影到低维空间中；将异常特征表述为对正常模式的扰动；紧凑嵌入当信息瓶颈，有助于禁止异常扰动传播到学生模型，采用resnet的第四个残差块作为一类嵌入块。

为了解决解码器D的低维特征恢复问题，MFF块在一类嵌入之前连接多尺度表示；通过一个或多个

3×3卷积层，步长为2，对浅层特征进行下采样，然后进行批量归一化和ReLU激活函数，在特征连接中实现表示对齐；然后利用步幅为1的1×1卷积层和具有relu激活的批量归一化来获得丰富而紧凑的特征。

OCBE模块：MFF聚合了低层次和高层次特征，以构建用于正常模式重建的丰富嵌入，OCE目标保留有利于学生解码教师反应的基本信息。

MFF对齐来自教师E的多尺度特征，OCE将获得的丰富特征浓缩为紧凑的瓶颈代码ϕ。MFF和OCE模块可在正常样本的知识蒸馏过程中与学生模型D一起训练和优化。

异常评分：

从异常图中的值反映了第k个特征张量的逐点异常，为了定位查询图像中的异常，我们将上采样到图像大小；表示使用的双线性上采样操作；将所有异常图按像素累加，得到精确评分图：

，去除评分图中的噪声，使用高斯滤波平滑；将中的最大值定义为样本级异常评分。

实验和讨论

异常检测与定位

MVTec所有图像调整到特点分别率（128×128，256×256），T-S模型中采用wideresnet50作为骨干E；Adam优化器：β = （0.5，0.999）；Ir = 0.005；200 epoch，批次大小为16；σ = 4的高斯滤波器用于平滑异常评分图；异常检测，AUROC（Image）作为指标；异常定位，AUROC（逐像素的pixel）与PRO；

异常定位的定量结果（AUROC、PRO）：

复杂性分析：

局限性：

晶体管数据集上的定位性能相对较弱，性能下降是由于预测和注释之间的误差造成的，缓解这个问题需要将更多的功能与上下文关系联系起来；更高层次的特征层和更宽的感知域可以提高性能（如使用第二和第三层特征的异常检测AUROC达到了94.5%，而只使用第三层特征的性能达到了97.3%）；降低图像分辨率也可以达到高性能。

一类新奇检测

评估方法的通用性，对MNIST、FASHION MNIST、CI-FAR10进行检测实验；

消融分析

研究OCE和MFF对异常检测的有效性，预训练的残差块作为基线；

不同的骨干网络作为教师模型的定性比较

不同的网络层对异常检测的影响，多尺度融合有助于覆盖更多的类型的异常

超想吃柚子

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
Anomaly Detection via Reverse Distillation from One-Class Embedding

为了解决“大容量模型获得的高维描述符可能具有相当大的冗余，表示的高度自由和冗余不利于学生模型解码基本的无异常特征”的不足，引入一个可训练的一类嵌入块，将教师模型的高维表示投影到低维空间中；更高层次的特征层和更宽的感知域可以提高性能（如使用第二和第三层特征的异常检测AUROC达到了94.5%，而只使用第三层特征的性能达到了97.3%）；教师E中的下采样是通过一个内核大小1，步幅为2的卷积层实现的，学生D相应解码块采用内核大小为2，步长为2的反卷积层。学生解码器D的架构是对称的，与E相比是反向的，
复制链接

扫一扫