用于异常检测的Transformer - InTra《Inpainting Transformer for Anomaly Detection》

最新推荐文章于 2024-07-27 23:35:12 发布

我是大黄同学呀

最新推荐文章于 2024-07-27 23:35:12 发布

阅读量4.5k

点赞数 3

分类专栏：读点论文 - 非监督学习

本文链接：https://blog.csdn.net/qq_36560894/article/details/119246035

版权

读点论文 - 非监督学习专栏收录该内容

28 篇文章 72 订阅

订阅专栏

原文地址

https://arxiv.org/pdf/2104.13897v1.pdf

论文阅读方法

三遍论文法

初识

GAN，AE这类基于重构的异常检测方法，缺点在于其对于异常样本的重构也非常好，这会导致检测错误。而目前出现的一些方法将生成重构的问题转换为inpainting问题来进行异常检测，inpainting就是将图像对某些区域进行覆盖，然后进行恢复，也可以视为一种自监督方法。

解决inpainting这类问题，从更大的区域捕获长距离语义信息有助于覆盖区域的重建。但CNN由于感受野的限制，其不善于捕捉长距离信息。因此，作者受到最近大火的视觉Transformer的启发，因此采用Transformer架构解决这个问题。如下图(a)所示，训练时，图像被切成大小相等的块，利用一个大区域内的其他图像块来进行inpainting。图(b)展示了重建的效果，以及根据像素级误差得到的异常得分图。

并且作者只依据MVTec AD数据集本身的少量样本进行训练，也达到了state-of-the-art的效果。

相知

2. Related Work

将当前的异常检测/分割方法主要分为了两类，一是基于重构的方法，类似AE、GAN、VAE等方法；其次是基于嵌入(Embedding)的方法，主要依据在ImageNet上预训练的CNN提取判别性特征进行比较。

随后也介绍了inpainting和transformer的一些相关方法。

3. Inpainting Transformer for Anomaly Detection

使用Transformer执行inpainting任务进行训练。测试时，同样以inpainting的方式进行重建，比较输入图像与重建图像之间的差别，得到检测结果。

3.1 Embedding Patches and Positions

如上图(a)所示，本文的方法是选择一个长度为L的正方形区域（而非ViT中的整副图像）进行inpainting，过程中有两种位置编码方式，一种是局部编码，如下图左所示，另一种是全局编码，如下图右所示。

为什么需要这两种编码模式，直觉上来说，纹理类图像(图左)不需要考虑图像块在全局的位置信息，而另一些类别则很重要(图右)。

和ViT中的设置类似，位置嵌入信息为D维，将图像块也映射到D维后，将两者进行相加即可。需要注意的是，有一个图像块 $P (t, u)$ 被覆盖了。本文将其视为ViT中的分类头(class token)：

最后得到 $L\times L$ 个维度为D的序列，准备送入后续的Transformer。

3.2 Multihead Feature Self-Attention

原始的MSA模块q与k都是通过一个映射维持在D维，但作者任务由于训练图像的图像块之间非常相似，这导致计算出来注意力权重几乎为恒等权重。因此作者对Transformer中的多头注意力模块做了略微修改，在计算q与k时，利用MLP进行一个非线性降维（文中设置为D/2），文中称之为MFSA (multihead feature self-attention)。