【论文研读】【流模型】【缺陷检测】 Fully Convolutional Cross-Scale-Flows for Image-based Defect Detection-CSDN博客

本文链接：https://blog.csdn.net/qq_45700830/article/details/122690593

Fully Convolutional Cross-Scale-Flows for Image-based Defect Detection

1. 摘要

领域：缺陷检测
模型：flow
成就：缺陷检测排行榜第二名
数据集：
- Magnetic Tile Defects
- MVTec AD

2.创新点

（1）提出 fully convolutional cross-scale normalizing flow (CS-Flow)模型，是基于real-NVP的流模型
（2）CS-Flow能同时处理不同尺度的特征图，处理时将多种尺度的特征图并行传入流模型，并且让它们之间相互作用。
![[imgs/截屏2021-10-30 下午5.49.52.png]]

3.网络结构

（1）CNN特征提取层 – EfficientNet-B5 X -> Y ，特征提取层，在ImageNet上预训练，不参与整个网络的训练过程。

输入尺寸分为三组：768*768 384*384 192*192
得到三组特征图尺寸：24*24*304 12*12*304 6*6*304
（2）流模型： Y -> Z (Z 为标准正态分布)
特征提取，得到三组特征图
按通道数（奇偶？）划分特征图为两部分 y_I、y_II
将三组 y_I、y_II输入到cross-scale convolutions模块进行仿射变换 （创新点）
沿通道数拼接

（3）细节：

coupling block使用 real-NVP的结构
$\begin{array}{c} \boldsymbol{y}_{\text {out }, 2}=\boldsymbol{y}_{\text {in }, 2} \odot e^{\gamma_{1} s_{1}\left(\boldsymbol{y}_{\text {in }, 1}\right)}+\gamma_{1} t_{1}\left(\boldsymbol{y}_{\text {in }, 1}\right) \\ \boldsymbol{y}_{\text {out }, 1}=\boldsymbol{y}_{\text {in }, 1} \odot e^{\gamma_{1} s_{2}\left(\boldsymbol{y}_{\text {out }, 2}\right)}+\gamma_{2} t_{2}\left(\boldsymbol{y}_{\text {out }, 2}\right) \end{array}$
we introduce the learnable block-individual scalar coefficients γ1 and γ2
soft-clamping
- $\sigma_{\alpha}(h)=\frac{2 \alpha}{\pi} \arctan \frac{h}{\alpha}$
- 将输出限制在 (−α, α) 之间

（4）损失函数：

change of variable公式：
- $p_{Y}(\boldsymbol{y})=p_{Z}(\boldsymbol{z})\left|\operatorname{det} \frac{\partial \boldsymbol{z}}{\partial \boldsymbol{y}}\right|$
$\log p_{Y}(\boldsymbol{y})=\log p_{Z}(\boldsymbol{z})+\log \left|\operatorname{det} \frac{\partial \boldsymbol{z}}{\partial \boldsymbol{y}}\right|$
$\mathcal{L}(\boldsymbol{y})=-\log p_{Y}(\boldsymbol{y})=\frac{\|\boldsymbol{z}\|_{2}^{2}}{2}-\log \left|\operatorname{det} \frac{\partial \boldsymbol{z}}{\partial \boldsymbol{y}}\right|$

4.实验

（1）参数设置

特征提取层：the output of layer 36 of EfficientNet-B5
MVTec AD, we use features at s = 3 scales with input image sizes of 768 × 768, 384 × 384 and 192 × 192 pixels，通道数：304
MTD samples, we resized the images to 384 × 384, 192 × 192 and 96 × 96 pixels
nblocks = 4 coupling blocks
- 3*3卷积（3层）+5*5卷积（1层）