[论文笔记]SwinSUNet: Pure Transformer Network for Remote Sensing Image Change Detection

最新推荐文章于 2024-01-22 19:13:59 发布

流氓兔爱学习

最新推荐文章于 2024-01-22 19:13:59 发布

阅读量2.5k

点赞数 1

分类专栏：遥感图像 transformer 论文阅读

本文链接：https://blog.csdn.net/lmt_like/article/details/127027207

版权

遥感图像同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

transformer

2 篇文章 0 订阅

订阅专栏

论文阅读

1 篇文章 0 订阅

订阅专栏

1 论文标题

标题： SwinSUNet: Pure Transformer Network for Remote Sensing Image Change Detection
作者： Cui Zhang , L i e j u n W a n g , Shuli Cheng , and Y ongming Li
发表地方： IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, VOL. 60, 2022

2 论文的结构

2.1 Abstract

作者想解决什么问题？

虽然CNN在CD领域取得了巨大的成就，但是它不能有效的捕捉全局信息。

作者通过什么模型来解决这个问题？

transformer是近年来提出的，它可以有效地提取全局信息，因此被用于解决计算机视觉（CV）任务，并取得了一些成就。在本文中，我们设计了一个采用连体U形结构的纯transformer网络来解决CD问题，并将其命名为SwinSUNet。

作者给出的答案是什么？

对四个CD数据集进行了实验，在这些实验中，SwinSUNet取得了比其他相关方法更好的结果。

2.2 Introduction

作者使用的理论是基于哪些模型？

Swin transformer

主要贡献

提出一种纯transformer的模型用于变化检测，并且SwinSUNet是第一个用于CD任务的纯transformer网络。

2.3 Related work

和作者这篇论文相关的工作有哪些？

CNN：FC-EF、STANet、DASNet、SNUNet
tranformer：BIT、CAM(方法)

重要的相关论文

Z. Liu et al., “Swin transformer: Hierarchical vision transformer using shifted Windows,” 2021, arXiv:2103.14030.

之前工作的优缺点是什么？

由于卷积操作固有的局部性，基于CNN的方法不能有效地提取长期的全局特征，从而限制了CD网络的能力。与之前的方法不同，本文试图探索纯transformer网络在CD任务中的潜力。

作者主要是对之前的哪个工作进行改进？

Swin transformer

2.4 METHODOLOGY

模型结构图

在这里插入图片描述

Swin transformer

窗口transformer，本文将W-MSA和SW-MSA两种划分窗口的方式交替使用。W-MSA：将特征图分为若干个大小为MxM的窗口，仅仅在每个窗口进行self-attention计算，但是这种方法忽略了窗口之间的交流，所以产生出SW-MSA方法。

encoder

假设输入大小为HxWxC,首先，将图片划分为大小为4x4x3的小patch，然后将每一个小patch转化为1维数据，大小为48，然后使用线性嵌入的方法（本文采用全卷积的方法）将48转换为通道C，所以输出大小为 H/4 x W/4 x C。与Swin transformer一样，我们也使用贴片合并层来完成下采样操作。在每个阶段，特征图的分辨率减半，而维度则增加一倍。操作如图所示：
在这里插入图片描述

Fusion

Fusion主要用于合并编码器生成的两个特征图，Fusion由一个连接层（连接两个特征图）、一个线性投影层（降低维度）和两个Swin transformer块（有效融合）组成。在此过程中，分辨率保持不变。

Decoder

每一层包括UM块和若干个Swin transformer块组成，每一次操作，将像素扩大一倍，通道减小一倍。再完成3次后，大小变为H/4 × W/4 x C,最后再通过使用一个线性映射将通道C变为2，生成一个变化图。其中UM模块：由一个上采样块和一个合并块组成。具体操作如图所示：
在这里插入图片描述

patch Reshaping操作：
在这里插入图片描述

2.5 Experiment

用到了哪些数据集

CDD、WHU-CD、OSCD、HRSCD

与什么算法进行了比较

CDNet, FC-EF,
FC-Siam-conc, FC-Siam-diff, DASNet,
STANet.

实验中的重要指标有哪些？

TP , TN, FP , FN, precision, recall, F1-score, and overall accuracy (OA).

文章提出的方法在哪些指标上表现好？在哪些指标上表现不好？

在这里插入图片描述

实验中作责实验环境已经参数

GPU：Nvidia Titan XP；optimizer：Adam；epochs：200，learning rate：0.00001。作者采用简单的翻转操作进行数据增加，每次保存F1分数最高的模型来进行评估。

2.6 Conclusion

这篇论文最大的贡献是什么？

提出了SwinSUNet，一个具有Siamese U形结构的纯Swin transformer网络。这是第一个基于纯transformer的CD网络。

3 不懂之处

流氓兔爱学习

关注

1
点赞
踩
25

收藏

觉得还不错? 一键收藏
5
评论
[论文笔记]SwinSUNet: Pure Transformer Network for Remote Sensing Image Change Detection

SwinSUNet，一个具有Siamese U形结构的纯Swin transformer网络。这是第一个基于纯transformer的CD网络。
复制链接

扫一扫

专栏目录