2021-12-01

最新推荐文章于 2025-03-31 10:18:10 发布

wangle53

最新推荐文章于 2025-03-31 10:18:10 发布

阅读量7.6k

点赞数 6

分类专栏：变化检测文章标签：深度学习 transformer 计算机视觉 python

本文链接：https://blog.csdn.net/m0_43432098/article/details/121197479

版权

变化检测专栏收录该内容

1 篇文章

订阅专栏

TransCD: Scene Change Detection via Transformer-based Architecture：一个基于的Transformer的场景变化检测模型

摘要
TransCD模型简介
实验结果
结论

文章链接：https://doi.org/10.1364%2Foe.440720
代码链接：https://github.com/wangle53/TransCD

摘要

场景变化检测是指从不同时间获取的图片对中检测出感兴趣的变化信息。SCD的一个关键点是如何识别感兴趣的变化，同时克服摄像机运动或环境变化引起的噪声变化，如视点、动态变化和室外条件。噪声变化会导致相应的像素对存在空间差异(位置关系)和时间差异(强度关系)。由于感受野的限制，基于卷积神经网络(CNN)的传统模型难以对语义变化建立long-range relation。为了解决上述挑战，我们探索了Transformer在SCD中的潜力，并提出了一种基于Transformer的SCD架构(TransCD)。由于SCD模型能够对感兴趣的和噪声变化进行建模，我们将Siamese Vision Transformer (SViT)合并到一个基于feature difference 的SCD框架中。我们的想法是，SViT能够建立全局语义关系和模型的长期上下文，对噪声变化会更具有鲁棒性。此外，单纯基于cnn的模型计算复杂度高，该模型具有更高的效率和更少的参数。在CDNet-2014数据集上进行的大量实验表明，所提出的TransCD(SViT-E1-D1-32) 优于目前最先进的SCD模型，F1得分达到0.9361，提高了7.31%。模型和代码可在https://github.com/wangle53/TransCD上获得。

TransCD模型简介

首先简单介绍了CDNet-2014数据集，以及该数据集中典型的几类noisy changes。在这里插入图片描述 TranCD模型如下：
该模型主要由三部分构成：

CNN Backbone: 主要用于提取特征，可以采用，也可以不采用。若采用CNN Backbone提取特征，那么后面再利用Tokenizer将提取到的特征转化为Tokens。若不采用CNN Backbone提取特征，那么Tokenizer直接将图片转化为Tokens。值得一提的是，采用CNN Backbone，将大大增加模型复杂度。
Siamese ViT：由两个并联的ViT组合而成，共享参数。ViT模型如下图所示。
Prediction Head：转置卷积构成，从Tokens重建出Change map。
Tokenizer：可以将原始图片或者CNN Backbone提取的特征转化为Tokens，以送入SViT.
文中使用的ViT模型示意图。对于encoder，接受embedded tokens作为输入，输出作为decoder的输入。值得注意的是，对于decoder，k v来自渝encoder，q来自于原始的tokens。
文中介绍了为什么使用这种decoder结构。
文章中设计了8个基础模型来验证模型性能。

实验结果

先上实验结果
在这里插入图片描述

每个类别的检测结果。

不同方法检测结果可视化：

下面是大量的消融实验，探索合理的SViT设计方案，实验较多，建议看原文。
一些较困难样本，含有大量噪声样本的检测结果可视化：

T-SNE算法降维可视化：
在这里插入图片描述
在VL-CMU-CD数据集上的检测结果：

结论

在这里插入图片描述