AAAI 2024 | 浙大&优图提出DiAD:第一个基于扩散模型的多类异常检测工作

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【异常检测和扩散模型】微信交流群

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐!

338469b8480bf28067f4039218bda574.jpeg

在CVer微信公众号后台回复:DiAD,即可下载论文pdf和代码链接!快学起来!

aa59a76d89b0ca16f1ab488b66147f02.png

DiAD:第一个基于扩散模型架构的多类异常检测工作

(来自浙大,腾讯优图)

论文:https://arxiv.org/abs/2312.06607

项目主页:

https://lewandofskee.github.io/projects/diad

项目代码:

https://github.com/lewandofskee/DiAD

DiAD论文解读

背景和动机

在工业生产过程中,工业异常检测是一个重要的环节,旨在及时发现和排除产品的制造异常,确保产品质量和安全性。近年来,随着计算机视觉和图像处理技术的快速发展,视觉技术被广泛应用于工业异常检测中。一般的单类异常检测算法分别为不同类别的物体训练不同的模型,非常消耗内存,并且也不适用于正常样本表现出大的类内多样性的情况,本文作者致力于用统一的框架从不同的物体类别中检测异常。

现有的基于计算机视觉的工业异常检测技术包括基于特征的、基于重构的和基于合成的技术。最近,扩散模型因其强大的生成能力而闻名,因此本文作者希望通过扩散模型将异常区域重构成正常。然而如下图1所示,直接将扩散模型应用于多类异常检测会存在几点问题:对于DDPM来说,应用于多类异常检测会出现类别错误的情况,因为在加入1000步噪声后,图像已变成随机高斯噪声,因为没有其他限制条件,DDPM在去噪过程中从随机高斯噪声中去噪最终获得随机类别的图像。LDM通过交叉注意力引入了条件约束,在多类异常检测应用场景中,LDM可以通过引入类别条件解决了DDPM在多类异常检测任务中类别错误的问题;然而LDM仍然无法解决在随机高斯噪声下去噪并保持图像语义信息一致性的问题,比如钉子的方向、齿轮的方位等。因此,现有的扩散模型尽管展现了其强大的生成能力,但是无法很好的解决多类异常检测的任务。   

6253ad25b8abb3cdd9f33fb40eac95d4.png

图1:上图展示了DDPM、LDM和Ours扩散模型去噪网络的框架,下图展示了三种模型对于同样的输入异常图像的重构效果

所以本文作者提出了DiAD来解决多类异常检测任务。在MVTec-AD、VisA等数据集上在图像和像素级别的AUROC、AP、F1max和PRO共七个指标上实现了新的SoTA,超越了UniAD、RD4AD等模型。

网络结构

本文作者提出一种基于扩散模型框架的多类异常检测方法。本方法包含三个空间:Pixel Space、Latent Space和Feature Space。首先输入图像366f038f1bf9543cc5ff820925428506.jpeg在Pixel Space中经过预训练的Auto-encoder得到Latent Variable 12ca4f9b93402cc0e8bc49e72ff25f93.jpeg,随后Latent Variable 110c321fa3576df03b79e6b98c631284.jpeg进入Latent Space经过向32b87830ad7b75b29650c2a40632387a.jpeg一步步加入随机高斯噪最终得到近随机高斯噪声,加噪后的Latent Variable da4272987f1c55e0b1002e15f3b0c4e2.jpeg输入至SD Denoising Network的同时输入图像输入至语义引导网络(Semantic-Guided Network),经过Semantic-Guided Network的输入图像将会加入到SD Denoising Network的Decoder Blocks中,经过大量的去噪过程后得到重构的Latent Variable ae7db4e78a80415d054c43b7b30b107e.jpeg,此时再进入Pixel Space中的Auto-decoder得到重构图像5e2fa24050282833bf4c65862f58fa05.jpeg,最终输入图像36548c890493ff5563c27ae4c6cc10d9.jpeg和重构图像20517cf8daba8007b5bdbab52b20b9da.jpeg将同时输入到Feature Space中,通过同一个预训练的特征提取网络提取不同尺度的特征,比较不同特征图上的余弦相似度用于异常得分的计算与定位并将不同尺度得到的结果合起来得到最终像素级别的异常定位得分和异常分类得分。本文作者改进了扩散模型的Denoising Network,在Denoising Network的基础上添加了与其结构相似的Semantic-Guided Network来保持输入图像与重构图像语义信息的一致性,使扩散模型能够在高步数加噪下仍保持与原输入图像语义信息的高度一致性并将异常区域重构为正常区域。   

4e55f0110f88bda108c507408298eda6.png

图2:DiAD模型框架

语义引导网络(Semantic-Guided Network)

语义引导网络首先通过卷积神经网络将输入图像ba41624dd1828540fd12dde2f9d29ab3.jpeg下采样到与加噪后的隐变量2a3fa021cbf3530c2ec5abecb85ca2bc.jpeg经过去噪网络第一层编码块得到的特征图同维度同尺度特征10bd1b2664ac5f0be444699e234f6502.jpeg,其次复制预训练去噪网络的编码块和解码块的参数用于之后模型的微调,为了保持重构图像与输入图像语义信息的一致性,将语义引导网络的中间层和一层解码块与去噪网络对应模块相连,最终去噪网络的输出为    

76d2552c798a9d6ad9c2276ff2aed33f.png

其中0b1c14ee072045112018bf54ecd05c20.jpeg表示去噪网络解码块、6c896c9ff42244eb427b0d7b9ae14cce.jpeg表示去噪网络中间块、802d1111d4cd802336e4c40b2f071e0b.jpeg表示去噪网络编码块、1b10a1637d531fd04414d77c4a15027b.jpeg表示语义引导网络中间块、69fd51d07de525b4306f1bb55e1615a8.jpeg表示卷积神经网络层、5941eab58d47ffbda813a2c2b713db9a.jpeg表示语义引导网络解码层。

空间感知特征融合模块(Spatial-aware Feature Fusion Block)

为了将不同空间尺度的信息结合起来,使用空间感知特征融合模块融合在语义引导网络中不同尺度编码块的输出结果, 1233fe27adc9700414d896b89a2e384e.jpeg表示编码块四中的低尺度的输出特征图,7c2dbe73a7668d7769cc65fd84685edb.jpeg表示编码块三中的高尺度的输出特征图,编码块四中的最终的输出特征图为:

eca5f165d0a16410cf04209667c82f7c.png

7dcfa99aeeab2e9f8c5d11ab1f9b2e23.jpeg表示编码块三中有三层在本次实验中使用,8cd3643e63c25326aa839bb668d2fdd8.jpeg表示一个基本的包含一个3×3卷积层、归一化层和激活层的卷积模块。

89aa9f7a09f0e57c28af6fb679fb5fd0.png

图3:空间感知特征融合模块

异常分数计算    

将重构图像9dd36e2ff8e0061b85fcaf70af4c1b44.jpeg和输入图像ce7329993ec27a3c7ed44c19985eec4b.jpeg共同输入到特征空间中同一个预训练的卷积神经网络resnet50特征提取器61c0f7f3abcd07bc49c187090ae4e880.jpeg中提取不同尺度的特征a57645caf1bb66a1d85d15e04833102b.jpeg,并通过余弦相似度计算不同尺度的缺陷得分b66a4fde9089cf9769f79e50b115517f.jpeg,计算方式为:

901cba49817a6a7a97c018518be0e19d.png

其中0c0f9c4bde3e36f45a73820b2c5f4e4a.jpeg代表第4f4a35b4f0b64052ec200666626999d4.jpeg层特征ddcff93dd2abcc4356529a38856ce818.jpeg。最终的缺陷定位得分为:

e1ce8d13cd295e6f3e5b6723e24ad919.png

其中59a25e2e7594dca9a1298660f5757b6f.jpeg表示上采样率、af12391746b3224187b7b81949a0bb5b.jpeg表示使用的特征层的数量,缺陷的分类得分为经过全局平均池化后的缺陷定位得分的最大值。

实验结果

MVTec-AD数据集实验结果

f22707e71c30c94a2953df86c571959e.png

图4:MVTec-AD数据集上多类异常检测实验结果,对应的指标分别为图像级别AUROC/AP/F1max。

da5fcdaca53faeb41ac91dd0be67ba57.png

图5:MVTec-AD数据集上多类异常检测实验结果,对应的指标分别为像素级别AUROC/AP/F1max。

VisA数据集实验结果

0a866e5ea53e5d30d04cf4f11d2d57cd.jpeg

图6:VisA数据集上多类异常检测实验结果,cls表示图像级别的结果而seg表示像素级别的结果。

总结

本文作者解决了现有扩散模型框架无法应对多类异常检测任务并提出了DiAD扩散模型框架用于多类异常检测。具体而言,作者在SD去噪网络的基础上引入了语义引导网络(Semantic-Guided Network)保持输入图像和重构图像的语义一致性,并且还提出了空间感知特征融合模块(Spatial-aware Feature Fusion Block)将不同尺度的特征相融合。最终本文实现了在保持与输入图像语义信息一致的前提下将异常区域重构成正常图像,同时实现SoTA。

在CVer微信公众号后台回复:DiAD,即可下载论文pdf和代码链接!快学起来!

CVPR / ICCV 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
异常检测和扩散模型交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-异常检测或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如异常检测或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看fb657a1e2f8d40f3c4739bb1d1bc3cd1.gif
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值