ICCV 2023 | 8篇论文看扩散模型diffusion用于图像检测任务:动作检测、目标检测、异常检测、deepfake检测...

1、动作检测 DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion

基于扩散方法提出一种新的时序动作检测(TAD)算法,简称DiffTAD。以随机时序proposals作为输入,可以在未修剪的长视频中准确生成动作proposals。从生成建模的视角,与先前的判别学习方法不同。

首先将真实proposals从正向扩散到随机proposals(即前向/噪声过程),然后学习逆转噪声过程(即反向/去噪过程)来实现这种能力。通过在Transformer解码器(如DETR)中引入具有更快收敛性的时间位置查询设计来建立去噪过程。进一步提出一种用于推理加速的交叉步选择条件算法。

在ActivityNet和THUMOS上的大量评估表明,与先前的方法相比,DiffTAD实现了最佳性能。已开源在:https://github.com/sauradip/DiffusionTAD

41b549d96cd0f38ecd319a4d376b7e33.png

2、目标检测 DiffusionDet: Diffusion Model for Object Detection

提出DiffusionDet,一种将目标检测作为从噪声框到目标框的去噪扩散过程的新框架。在训练阶段,目标框从真实边界框扩散到随机分布,模型学习逆转这个噪声过程。在推理中,模型以渐进的方式将一组随机生成的边界框优化到输出结果中。

方法具有灵活性的吸引力,可以动态调整边界框的数量和迭代评估。在标准基准测试中进行的广泛实验表明,与先前的成熟检测器相比,DiffusionDet取得了有利的性能。例如,在从COCO到CrowdHuman的零样本迁移设置下,DiffusionDet在较多的边界框和迭代步骤下分别达到了5.3 AP和4.8 AP的增益。已开源在:https://github.com/ShoufaChen/DiffusionDet

2284bfc2dc4fb4c642a80a74326e81fd.png

3、异常检测 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection

异常情况很少见,因此异常检测通常作为单分类(OCC)来构造,即仅在正常情况下进行训练。提出了一种新的视频异常检测(VAD)生成模型,假设正常和异常都是多模态的。考虑骨骼表示,并利用最先进的扩散概率模型生成多模态的未来人体姿势。对人的过去动作进行了新的条件化,并利用扩散过程的改进模式覆盖能力生成不同但可靠的未来运动。

通过对未来模态进行统计聚合,当生成的一组运动与实际未来不相关时,检测到异常。在四个已建立的基准测试:UBnormal,HR-UBnormal,HR-STC和HR-Avenue上验证模型,并进行广泛实验,结果超过现有技术水平。已开源在:https://github.com/aleflabo/MoCoDAD

0ed5d7595ca256d30e0e2a3feeb3ff7a.png

4、异常检测 DIFFGUARD: Semantic Mismatch-Guided Out-of-Distribution Detection using Pre-trained Diffusion Models

给定一个分类器,语义上的Out-of-Distribution(OOD)样本的固有属性是其内容与所有合法类别在语义上有所不同,即语义不匹配。最近工作将其直接应用于OOD检测,该方法采用条件生成对抗网络(cGAN)来扩大图像空间中的语义不匹配。尽管在小型数据集上取得一些效果,但对于IMAGENET规模的数据集来说,由于训练同时具备输入图像和标签作为条件的cGAN的困难,该方法不适用。

鉴于扩散模型比cGANs更易于训练和适用于各种条件,本研究提出一种名为DIFFGUARD的方法,直接利用预训练扩散模型进行语义不匹配引导的OOD检测。具体而言,给定一个OOD输入图像和分类器的预测标签,扩大在这些条件下重建的OOD图像与原始输入图像之间的语义差异。还提出一些测试时的技术来进一步增强这种差异。

实验证明,DIFFGUARD对于CIFAR-10和大规模IMAGENET的复杂案例都很有效,并且可以与现有的OOD检测技术轻松结合,达到最先进的OOD检测结果。已开源在:https://github.com/cure-lab/DiffGuard

26ea5a0c56a2550b96ce0f77e94ac5ee.png

5、异常检测 Feature Prediction Diffusion Model for Video Anomaly Detection

在视频中进行异常检测,是一个重要的研究领域和实际应用中的挑战性任务。由于缺乏大规模标注的异常事件样本,大多数现有的视频异常检测(VAD)方法侧重于学习正常样本的分布,以检测明显偏离的异常样本。为学习正常运动和外观的分布,许多辅助网络被用于提取前景对象或动作信息。这些高级语义特征可以有效地过滤背景噪声,减少其对检测模型的影响。然而,这些额外的语义模型的能力严重影响了VAD方法的性能。

受扩散模型(DM)启发,本研究引入一种基于DM的新方法来预测用于异常检测的视频帧特征。目标是在不涉及任何额外高级语义特征提取模型的情况下学习正常样本的分布。为此,构建两个去噪扩散隐式模块来预测和改善特征。第一个模块专注于特征运动学习,最后一个模块专注于特征外观学习。

这是第一个基于DM的VAD帧特征预测方法。扩散模型的强大能力使方法能比非DM的特征预测VAD方法更准确地预测正常特征。实验证明,方法在具有挑战性的MVTec数据集上实现了最先进的性能,特别是在定位精度上。

6、异常检测 Unsupervised Surface Anomaly Detection with Diffusion Probabilistic Model

无监督表面异常检测,仅用无异常的训练样本来发现和定位异常模式。基于重建的模型是最受欢迎和成功的方法之一,其依赖于异常区域更难重建的假设。然而,这种方法在实际应用中面临三个主要挑战:1)需要进一步改进重建质量,因为它对最终结果有很大影响,特别是对于具有结构变化的图像;2)观察到对于许多神经网络,异常样本也可以很好地重建,这严重违反了基本假设;3)由于重建是一个病态问题,一个测试实例可能对应多个正常模式,但大多数当前的基于重建的方法忽略了这个关键事实。

本文提出DiffAD,一种基于潜在扩散模型的无监督异常检测方法,受到其生成高质量和多样化图像的能力的启发。进一步提出噪声条件嵌入和插值通道来解决常规重建流程中所面临的挑战。广泛实验证明,方法在具有挑战性的MVTec数据集上实现最先进的性能,特别是在定位准确性方面。

7、图像检测deepfake相关 DIRE for Diffusion-Generated Image Detection

扩散模型在视觉生成方面取得成功,但也引发了可能滥用于恶意目的的担忧。本文旨在构建一个检测器,用于区分真实图像和扩散生成的图像。发现现有的检测器很难检测到由扩散模型生成的图像,即使在它们的训练数据中包括了来自特定扩散模型生成的图像。

为解决这个问题,提出一种新的图像表示方法,称为扩散重构误差(DIRE),它通过预训练的扩散模型来衡量输入图像及其重构对应物之间的误差。观察到,扩散生成的图像可以通过扩散模型进行近似重构,而真实图像则不能。这提供了一个线索,表明DIRE可以作为区分生成图像和真实图像的桥梁。DIRE为检测大多数扩散模型生成的图像提供了一种有效的方法,并且适用于检测来自未知扩散模型的生成图像,并且能够抵抗各种扰动。

此外,建立一个扩散生成基准,包括由各种扩散模型生成的图像,以评估扩散生成的图像检测器的性能。在收集的基准上进行了大量实验证明,DIRE优于先前的生成图像检测器。已开源在:https://github.com/ZhendongWang6/DIRE

d2ad2981b081c564d4ce1750c8a0e0bd.png

8、图像检测deepfake相关 The Stable Signature: Rooting Watermarks in Latent Diffusion Models

生成图像可实现广泛应用,但也引发了关于负责、伦理关注。引入一种结合图像水印和潜在扩散模型的主动内容追踪方法。其目标是使所有生成的图像都隐藏了一个不可见的水印,以便未来进行检测和/或识别。

该方法通过对二进制签名进行条件化,快速调整图像生成器的潜在解码器。一个预训练的水印提取器从任何生成的图像中恢复出隐藏的签名,然后经过统计检验确定其是否来自生成模型。评估了水印在各种生成任务上的隐形性和稳健性,并显示出稳定签名对图像修改具有较高的鲁棒性。例如,它可以检测到从文本提示生成的图像的来源,然后截取其中10%的内容,以90+%的准确率在误报率低于10^(-6)时进行检测。https://github.com/facebookresearch/stable_signature

7f3347aef5387b4aa47e4d2433676ba7.png

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

不是一杯奶茶喝不起,而是我T M直接用来跟进 AIGC+CV视觉 前沿技术,它不香?!

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

6e49386a1d802327735fba8e34737b11.png 戳我,查看GAN的系列专辑~!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击跟进 AIGC+CV视觉 前沿技术,真香!,加入 AI生成创作与计算机视觉 知识星球!

### 扩散模型目标检测中的应用 扩散模型作为一种强大的生成模型,在计算机视觉领域得到了广泛应用。对于目标检测任务而言,扩散模型提供了一种新颖的方法来处理复杂的背景和多样的物体形态。 #### 工作原理 扩散模型的核心理念是从含噪声的数据逐渐恢复到清晰的目标表示。具体来说,该过程分为两个阶段: 1. **前向扩散过程**:在这个过程中,系统会逐步向输入数据加入高斯白噪声,直到原始信号完全被破坏; 2. **反向去噪过程**:这一部分利用神经网络学习如何逆转上述加噪操作,即从纯噪音中重建出有意义的对象特征[^2]。 这种机制使得模型能够捕捉更丰富的上下文信息,并且不需要预先设定固定数量或特定形状的目标框,从而提高了灵活性与鲁棒性。 #### 实现细节 为了将扩散模型用于实际的目标检测场景,可以采用类似于 `DiffusionDet` 的框架设计。以下是简化版实现思路: ```python import torch.nn as nn from torchvision.models import resnet50 class DiffusionDetector(nn.Module): def __init__(self, num_classes=80): super(DiffusionDetector, self).__init__() # 使用预训练ResNet作为骨干网提取图像特征 backbone = resnet50(pretrained=True) layers = list(backbone.children())[:-2] self.backbone = nn.Sequential(*layers) # 定义用于预测类别分数和边界框坐标的头部结构 hidden_dim = 2048 self.class_head = nn.Linear(hidden_dim, num_classes + 1) # 加上背景类 self.bbox_head = nn.Linear(hidden_dim, 4 * (num_classes)) def forward(self, x): features = self.backbone(x).mean([2, 3]) # 平均池化得到全局描述符 class_logits = self.class_head(features) bbox_preds = self.bbox_head(features).view(-1, 4) return class_logits, bbox_preds ``` 此代码片段展示了基于扩散模型构建简单目标检测器的基本架构。需要注意的是,真实的应用通常还需要考虑更多因素,比如多尺度融合、注意力机制以及更加精细的损失函数设计等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值