读书笔记：基于Transformer的 Siamese 网络用于变化检测_一种基于变压器的暹罗网络架构-CSDN博客

本文链接：https://blog.csdn.net/qq_42075634/article/details/123582729

本文介绍了一种名为ChangeFormer的架构，它结合了分层Transformer编码器和MLP解码器，用于遥感图像的变化检测。相较于传统的全卷积网络，ChangeFormer在Siamese网络中利用Transformer捕捉多尺度细节，提高了检测准确性。实验显示，该方法在两个数据集上表现出优越的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：

本文提出了一种基于变压器的连体网络架构（缩写为 ChangeFormer），用于从一对共同配准的遥感图像中进行变化检测（CD）。与最近基于全卷积网络 (ConvNets) 的 CD 框架不同，所提出的方法在 Siamese 网络架构中将分层结构的 Transformer 编码器与多层感知 (MLP) 解码器相结合，以有效地渲染所需的多尺度远程细节获得准确的 CD。在两个 CD 数据集上的实验表明，所提出的端到端可训练 ChangeFormer 架构比以前的同类架构实现了更好的 CD 性能。

#文章
https://arxiv.org/abs/2201.01293
#代码地址
https://github.com/wgcban/ChangeFormer

引言：

现有的最先进（SOTA）CD 方法主要基于深度卷积网络（ConvNets），因为它们能够提取强大的判别特征。由于必须在空间和时间范围内捕获远程上下文信息以识别多时间图像中的相关变化，因此最新的 CD 研究一直集中在增加 CD 模型的感受野上。因此，已经提出了具有堆叠卷积层、扩张卷积和注意机制（通道和空间注意）的 CD 模型 [1]。尽管基于注意力的方法在捕获全局细节方面很有效，但它们很难在时空中关联远程细节，因为它们使用注意力来重新加权通过 ConvNets 在通道和空间维度上获得的双时间特征。 Transformers（即非本地自注意力）最近在自然语言处理 (NLP) 中的成功促使研究人员将 Transformers 应用于各种计算机视觉任务。继 NLP 中的变压器设计之后，针对各种计算机视觉任务提