2021-12-01

TransCD: Scene Change Detection via Transformer-based Architecture:一个基于的Transformer的场景变化检测模型

文章链接:https://doi.org/10.1364%2Foe.440720
代码链接:https://github.com/wangle53/TransCD

摘要

场景变化检测是指从不同时间获取的图片对中检测出感兴趣的变化信息。SCD的一个关键点是如何识别感兴趣的变化,同时克服摄像机运动或环境变化引起的噪声变化,如视点、动态变化和室外条件。噪声变化会导致相应的像素对存在空间差异(位置关系)和时间差异(强度关系)。由于感受野的限制,基于卷积神经网络(CNN)的传统模型难以对语义变化建立long-range relation。为了解决上述挑战,我们探索了Transformer在SCD中的潜力,并提出了一种基于Transformer的SCD架构(TransCD)。由于SCD模型能够对感兴趣的和噪声变化进行建模,我们将Siamese Vision Transformer (SViT)合并到一个基于feature difference 的SCD框架中。我们的想法是,SViT能够建立全局语义关系和模型的长期上下文,对噪声变化会更具有鲁棒性。此外,单纯基于cnn的模型计算复杂度高,该模型具有更高的效率和更少的参数。在CDNet-2014数据集上进行的大量实验表明,所提出的TransCD(SViT-E1-D1-32) 优于目前最先进的SCD模型,F1得分达到0.9361,提高了7.31%。模型和代码可在https://github.com/wangle53/TransCD上获得。

TransCD模型简介

首先简单介绍了CDNet-2014数据集,以及该数据集中典型的几类noisy changes。在这里插入图片描述TranCD模型如下:
该模型主要由三部分构成:

  • CNN Backbone: 主要用于提取特征,可以采用,也可以不采用。若采用CNN Backbone提取特征,那么后面再利用Tokenizer将提取到的特征转化为Tokens。若不采用CNN Backbone提取特征,那么Tokenizer直接将图片转化为Tokens。值得一提的是,采用CNN Backbone,将大大增加模型复杂度。
  • Siamese ViT: 由两个并联的ViT组合而成,共享参数。ViT模型如下图所示。
  • Prediction Head:转置卷积构成,从Tokens重建出Change map。在这里插入图片描述
    Tokenizer:可以将原始图片或者CNN Backbone提取的特征转化为Tokens,以送入SViT.
    文中使用的ViT模型示意图。对于encoder,接受embedded tokens作为输入,输出作为decoder的输入。值得注意的是,对于decoder,k v来自渝encoder,q来自于原始的tokens。在这里插入图片描述
    文中介绍了为什么使用这种decoder结构。在这里插入图片描述
    文章中设计了8个基础模型来验证模型性能。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

实验结果

先上实验结果
在这里插入图片描述
在这里插入图片描述
每个类别的检测结果。
在这里插入图片描述
不同方法检测结果可视化:
在这里插入图片描述
下面是大量的消融实验,探索合理的SViT设计方案,实验较多,建议看原文。
一些较困难样本,含有大量噪声样本的检测结果可视化:
在这里插入图片描述
T-SNE算法降维可视化:
在这里插入图片描述
在VL-CMU-CD数据集上的检测结果:
在这里插入图片描述
在这里插入图片描述

结论

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值