InTra【异常检测：Reconstruction_based】

最新推荐文章于 2024-07-06 20:41:02 发布

太简单了

最新推荐文章于 2024-07-06 20:41:02 发布

阅读量748

点赞数

分类专栏：异常检测&论文理解文章标签：计算机视觉深度学习 pytorch

本文链接：https://blog.csdn.net/qq_41804812/article/details/125742713

版权

异常检测&论文理解专栏收录该内容

26 篇文章 35 订阅

订阅专栏

2021.4，效果排名第23（papers with code）

模型原理

思想：将transformer引入异常检测领域，将基于生成重构的问题转化为inpainting问题（将图像某些区域覆盖然后恢复，可视为自监督方法），使用transformer来进行大感受野的信息捕捉。

Patch Embeddings and Multihead Feature Self-attention

Patch embeddings

如图，将输入的图分成16*16的网格图，再从网格图中随机选取7*7大小的图，构成张量[252,49,768]（batchsize：252，7*7:49，16*16*3（RGB通道）：768）。经全连接层转换为[252,49,512]，输出到网络的图是[252,49,512]（包括未被掩盖的块和为补充位置关系而加的层），[252,768]（被掩盖的块）。

Multihead Feature Self-attention MFSA多头注意力机制

query，key，value张量均为输入的图[252,49,512]，query，key经（MLP）两个全连接层（层间设置激活函数）输出[252,49,256]，再转换张量的布置输出[252,8,49,32]，value经一个全连接层（不设置激活函数）输出[252,49,256]，再转换张量的布置输出[252,8,49,64]。

key张量再转换[252,8,32,49]与query张量相乘后除 $\sqrt{32}$ 得张量[252,8,49,49]。经softmax返回张量p_attn[252,8,49,49]，将p_attn与value相乘返回张量value_pro[252,8,49,64]。