「已注销」-CSDN博客

原创 Toward Generalist Anomaly Detection via In-context Residual Learning with Few-shot Sample Prompts

本文提出的方法叫做InCTRL（incontext residual learning model for GAD），它结合了图像和文本提示，它的主要思想是利用查询图像和少量正常样提示之间的残差学习来进行异常样本和正常样本的分类，使异常查询样本与样本提示之间的差异会远大于正常查询样本与样本提示之间的差异。具体来说，假设有一组定义正常的文本提示集合，记为Pn，使用CLIP的文本编码器得到这些文本提示的特征表示，并使用正常的文本提示特征的原型特征)作为正常文本的表征。类似地，是异常性文本提示集Pa的原型特征。

2024-05-16 15:48:15 1290

原创 CVPR2023：Prototypical Residual Networks for Anomaly Detection and Localization

表示异常到正常模式的残差特征的多尺度原型，可实现可变尺寸的异常特征学习的多尺寸自注意力机制。由于在真实世界中，相比与正常数据，异常数据的样本数量有限（显著少于正常样本），异常数据细微且难以辨别，异常数据形态变换显著有多种形态，作者提出了多种异常生成策略（这种策略兼顾了可见和不可见的异常特征）。由于在真实世界中，相比与正常数据，异常数据的样本数量有限（显著少于正常样本），异常数据细微且难以辨别，异常数据形态变换显著有多种形态，作者提出了多种异常生成策略（这种策略兼顾了可见和不可见的异常特征）。

2024-05-16 15:37:34 1105

原创 CVPR2024 :Label-free Anomaly Detection in Aerial Agricultural Images with Masked Image Modeling

在实验上，将SwinMAE与最新的几种异常检测算法进行比较，这些算法包括卷积、基于GAN、单分类、transformer和基于MAE的模型，评估这些不同的异常算法在数据集Agriculture Vision challenge的9个类别中平均IoU值。Swin Masked Autoencoder中的掩码策略涉及一种新的方法，该方法在编码过程中保持输入数据中的补丁数量，而MAE仅将未掩码的补丁输入到编码器中。原文 https://arxiv.org/pdf/2404.08931.pdf。

2024-05-16 15:31:49 626

原创 PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection CVPR2024

从数据集的异常标签中生成异常后缀，如[ ] with color stain，[ ] with crack等，然后将这些文本与NP进行拼接，得到人工异常提示。像素级对比实验结果记录在下表中。因此本文提出SC模型，即文本语义串联，是将正常提示加入异常前缀或者后缀构造成为异常提示，从而从正常提示样本来构造足够多的异常提示样本，这些异常提示用来在单分类问题中进行训练。PromptAD与一些多样本设置下的方法相比，取得了更好的图像级结果，像素级结果也具有竞争力，充分验证了PromptAD在少样本情景下的性能。

2024-04-18 08:42:39 1413

原创 GAN：Generative Adversarial Nets

从生成器G的角度来看，生成器G希望真实图像x和生成图像G(z)区分不开，即希望虚假数据G(z)可以尽可能骗过判别器D，也就是希望D(G(z))尽可能大，1-D(G(z)就更小，log(1-D(G(z))更小，也就是V(D,G)整体尽可能小，即对G取min V(D,G)。若D(x)是非常完美的判别器，D(x)=1，则V(D,G)=0，而若有误分类时，D(x)<1时，log(D(x))和log(1-D(G(z))都会是负值。G(z)表示生成图像，D(x)表示对真实图像的判别，D(G(x))表对生成图像的判别。

2024-01-22 16:25:15 1154

原创 VGGNet：very deep convolutional networks for large-scale image recognition LCLR2015

下图每一列都是一个模型，本文提出6个网络模型，命名为A、A-LRN、B、C、D、E。如网络A，block1中卷积核大小3，个数64，在block2中卷积核大小不变，个数翻倍128个，在block3中卷积核大小不变，个数在block的基础上又翻倍变成256个，同时卷积层数从1层变成了2层。输入彩色图像信息为224×224×3，block1有64个卷积核，对输入图像做下采样，原图的长宽从224×224缩减为原来的一半，即112×112，但是通道数由64增加一半到128，block2-6依次做类似处理。

2024-01-18 23:51:51 643

原创 Survey: Deep Learning for Unsupervised Anomaly Localization in Industrial Images: A Survey:

对于PRO曲线，若FPR过高，则代表大面积的正常区域被定位为缺陷，此时由于大面积的区域被定位为缺陷，真正样本TPn的值也会很大，即PRO值很高，显然此时的高PRO不能很好地反应模型定位精度。如下图所示，三种情况IoU都相等，但看得出来他们的重合度是不一样的，左边的图回归的效果最好，右边的最差。该方法的问题在于难以保证异常图像中的异常区域被很好重建为正常，同时图像中的正常区域重建的效果和输入一致，这样两者作差的结果并不能完全代表异常区域。：在真实的工业场景中，一些异常，如裂缝，往往是细微的，占据的面积很小。

2024-01-15 21:42:51 1858

原创 SimpleNet: A Simple Network for Image Anomaly Detection and Localization CVPR2023

SimpleNet网络由4部分构成，分别是预训练的特征提取器，浅层的特征适配器，异常特征生成器和异常判别器。将SimpleNet方法（主干网络为WideResnet50）与现有的各类方法，如基于重构的方法（AE-SSIM, RIAD），基于合成的方法（DR-EM, CutPaste），基于嵌入的方法（CS-Flow, PaDIM, RevDist, PatchCore）一同在数据集MVTec AD上进行异常检测实验，以I-AUROC（左）和P-AUROC（右）作为评价模型好坏的标准。

2024-01-14 18:53:44 2333

原创 ResNet：Deep Residual Learning for Image Recognition CVPR 2015

新加的那些层不要直接去学F(x)，而是应该去F(x)-x，x是原始的浅层神经网络已经学到的一些东西，新加的层不要重新去学习，而是去学习学到的东西和真实的东西之间的残差，最后整个神经网络的输等价于浅层神经网络的输出x和新加的神经网络学习残差的输出之和，将优化目标从F(x)转变成为F(x)-x.传统的方式获得更好的网络不是依靠堆叠更多的层实现的，若简单堆叠层，一个问题随之出现：网络的层数越来越深，梯度爆炸或梯度消失问题就会出现。带点的快捷连接增加了维度。（i）对于相同的输出特征图尺寸，层具有相同数量的滤波器；

2024-01-14 11:44:40 882

原创 Localization Distillation for Object Detection PAMI2023

本文在知识蒸馏方法(Knowledge Distillation, KD)基础上提出位置蒸馏方法(Localization Distillation, LD),研究logit蒸馏与feature蒸馏的区别，提出有价值的定位区域的概念(Valuable Localization Region, VLR)，将LD扩展到旋转版本使其可以应用于任意方向的目标检测，在数据集MS COCO\PASCAL VOC\DOTA上对logit mimicking和feature imitaion进行实验和分析。

2024-01-14 11:37:41 1374

qq_45844265的博客