原文 https://arxiv.org/pdf/2404.08931.pdf
数据集 Agriculture Vision challenge
本文对无标签航拍农业图像进行异常检测,提出一种基于掩码图像建模的自监督方法,即结合SwinMAE和异常抑制损失来对航拍农业图像进行处理,从农场图像中学习“正常”的特征嵌入。在数据集Agriculture Vision challenge上进行异常检测。该数据集是大型航拍农业图像数据集,包括美国的3432块农田的94986张图像,每张图像包括RGB和NIR通道,分辨率高达每像素10厘米,图像注释来9种田间异常模式(Drydown, Doubleplant, Endrow, Weedcluster, ND, Water, PlanterSkip, Waterway, StormDamage)。在实验上,将SwinMAE与最新的几种异常检测算法进行比较,这些算法包括卷积、基于GAN、单分类、transformer和基于MAE的模型,评估这些不同的异常算法在数据集Agriculture Vision challenge的9个类别中平均IoU值。
1.方法原理
作者提出的方法是将SwinMAE架构和异常抑制损失相结合,框架图如下:
SwinMAE原理:SwinMAE的架构分为编码器和解码器。SwinMAE是基于Swin Transformer模型的,它主要是为了利用Swin Transformer去学习图像局部和全局特征而与掩码图像框架集成,将MAEs中常用的视觉变换(Vision Transformer,ViT)替换为Swin Transformer。Swin Masked Autoencoder中的掩码策略涉及一种新的方法,该方法在编码过程中保持输入数据中的补丁数量,而MAE仅将未掩码的补丁输入到编码器中。编码器没有移除掩码补丁,这可能导致后续处理步骤(如补丁合并)所需的code不足,