（自用）DiAD（Diffusion-based Anomaly Detection）

Sylvia_7102

已于 2024-07-02 23:09:02 修改

阅读量2.5k

点赞数 30

文章标签： python

于 2024-06-26 11:21:16 首次发布

本文链接：https://blog.csdn.net/Sylvia_7102/article/details/139972519

版权

论文地址：DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection

代码地址：https://github.com/lewandofskee/DiAD

以下很多内容出自这个大佬，我只是想按我自己的理解整合一下。自用整理保存，转载商用请联系原博主！

AAAI2024 基于扩散模型多类别工业异常检测 DiAD_diad reconstruction-CSDN博客https://blog.csdn.net/qq_41204464/article/details/139233283

一、网络结构

1. 像素空间自编码器（Pixel-space Autoencoder）：

2. 潜在空间语义引导网络（Latent-space Semantic-Guided Network）：

2.1 编码块SGEB：

2.2 解码块SGDB:

2.3 空间感知特征融合块SSF（Spatial-aware Feature Fusion Block）：

4. 特征空间预训练特征提取器（Feature-space Pre-trained Feature Extractor）：

提出了一种基于扩散模型的多类别异常检测框架DiAD（Diffusion-based Anomaly Detection）。其核心方法旨在解决在复杂多类别环境中，异常检测时如何保持图像类别和像素级结构完整性的挑战。

DiAD框架通过结合像素空间自编码器、潜在空间语义引导网络、空间感知特征融合块和特征空间预训练特征提取器，构建了一个能够有效处理多类别异常检测问题的系统。通过保持图像的语义信息和像素级结构完整性，DiAD在多类别设置下展现出了优异的异常检测性能。

在MVTec-AD和VisA数据集上的实验结果表明，DiAD框架在异常检测和定位方面取得了显著效果，超过了现有最先进的方法。

（图出自开头提到的大佬）

一、网络结构

1. 像素空间自编码器（Pixel-space Autoencoder）：

自编码器通常用于数据压缩和重构，通过编码器将输入数据压缩成低维表示（即潜在空间表示），再通过解码器将低维表示恢复成原始数据。在DiAD中，像素空间自编码器被用于初步的图像重构。

2. 潜在空间语义引导网络（Latent-space Semantic-Guided Network）：

这是一个与稳定扩散的去噪网络相连接的网络，其目标是在重构异常区域时，保持原始图像的语义信息。

这意味着网络在修复或重构异常区域时，会尝试使修复后的区域与原始图像的语义上下文保持一致。

SG网络在不同尺度下处理噪声，并通过SFF模块融合特征，确保重建过程中保留语义信息。SG网络的设计有助于在多类别设置中，避免因为异常检测而破坏图像的类别信息。

包括一系列编码块SGEB和解码块SGDB、中间模块SGM、以及一个空间感知特征融合SFF模块。

输入变换：

输入原始图像𝑥0被一组Conv-SiLU层，转换为具有与潜在表示𝑧𝑇相同维度的表示 𝑥。
然后，𝑥和潜在变量𝑧𝑇经过扩散前向过程后的特征的和被输入到SG编码块中。

流程思路：

通过编码器的连续下采样，结果最终被添加到中间块的输出中。
中间块在完成中间处理后，其结果被添加到SD解码器的输出中。
为了应对不同场景和类别的多类别任务，SG解码块的结果也被添加到SD解码器的输出中，并结合SFF块共同处理。