CVPR2024 :Label-free Anomaly Detection in Aerial Agricultural Images with Masked Image Modeling

原文 https://arxiv.org/pdf/2404.08931.pdf
数据集 Agriculture Vision challenge

本文对无标签航拍农业图像进行异常检测,提出一种基于掩码图像建模的自监督方法,即结合SwinMAE和异常抑制损失来对航拍农业图像进行处理,从农场图像中学习“正常”的特征嵌入。在数据集Agriculture Vision challenge上进行异常检测。该数据集是大型航拍农业图像数据集,包括美国的3432块农田的94986张图像,每张图像包括RGB和NIR通道,分辨率高达每像素10厘米,图像注释来9种田间异常模式(Drydown, Doubleplant, Endrow, Weedcluster, ND, Water, PlanterSkip, Waterway, StormDamage)。在实验上,将SwinMAE与最新的几种异常检测算法进行比较,这些算法包括卷积、基于GAN、单分类、transformer和基于MAE的模型,评估这些不同的异常算法在数据集Agriculture Vision challenge的9个类别中平均IoU值。
1.方法原理
作者提出的方法是将SwinMAE架构和异常抑制损失相结合,框架图如下:
SwinMAE原理:SwinMAE的架构分为编码器和解码器。SwinMAE是基于Swin Transformer模型的,它主要是为了利用Swin Transformer去学习图像局部和全局特征而与掩码图像框架集成,将MAEs中常用的视觉变换(Vision Transformer,ViT)替换为Swin Transformer。Swin Masked Autoencoder中的掩码策略涉及一种新的方法,该方法在编码过程中保持输入数据中的补丁数量,而MAE仅将未掩码的补丁输入到编码器中。编码器没有移除掩码补丁,这可能导致后续处理步骤(如补丁合并)所需的code不足,而是将这些掩码code替换成可学习的向量。该方法保证了整个编码过程中code数量的一致性。
SwinMAE网络的编码器开始将输入图像分割成互不重叠的块,并通过线性变换将这些块映射到高维嵌入空间,从而允许更复杂的特征提取。然后补丁经过寡妇掩蔽策略。构成编码器核心的Swin Transformer块通过使用基于窗口的多头自注意力(W-MSA 和移位(SW-MSA)窗口多头注意力有效地捕获分层特征。
在这里插入图片描述

异常抑制损失原理:基于均方误差( MSE )的损失函数允许模型随着训练的进行学习重建异常像素。在初始迭代过程中,异常像素的重建误差高于背景像素的重建误差,但随着迭代次数的增加,基于重建的模型能够重建出异常像素。

在这里插入图片描述

2.实验结果
数据集:Agriculture Vision challenge
评价指标:IoU, mIoU
在这里插入图片描述

实验结果:将SwinMAE与最新的几种异常检测算法进行比较,这些算法包括卷积、基于GAN、单分类、transformer和基于MAE的模型。为了对Swin MAE进行具体的定量分析,与DSVDD、RIAD、ARNet、GANomaly、基于像素描述子(Pixel Descriptors,ASD )的异常分割模型等模型进行了比较
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值