Convolutional Neural Network Features Based Change Detection in Satellite Images 翻译

基于卷积神经网络特征的卫星图像变化检测

Mohammed El Amin, A., Liu, Q., & Wang, Y. (2016)

原文地址:http://sci-hub.ren/10.1117/12.2243798

code:https://github.com/vbhavank/Unstructured-change-detection-using-CNN

 

主要内容

把要比较的图像图像I1和I2通过“divide to grid”的方式放入pre-trained 的改动了的AlexNet 中,

把5个卷积层的feature map拿出来,做上采样到一样的size ,

然后全拼接起来,就成了1376维(96 + 256 + 384 + 384 + 256),

再计算每个位置上的L2距离,最后再做一下阈值处理,得到最终的change map。

 

但读完之后有以下疑问:

在Imagenet上预训练的网络,Imagenet上的图像是普通图像,而这里讨论的是遥感图像。即使说我们再前几层的feature map中提取中的基础特征差不多,filter是可以共用的;但再后几层feature map中提取出来的语义特征一样吗?

 

下面是文章的全文翻译

 

ABSTRACT

随着高分辨率遥感(HRRS)卫星图像的广泛使用,人们对变化检测(CD)问题进行了大量研究。 有效的特征选择方法可以显着提高最终结果。 尽管 hand-designed features 已证明难以设计有效捕获高级和中级的representations,但是机器学习(深度学习)的最新发展通过在无人干预的情况下直接从数据中以无监督的方式学习hierarchical representation来解决了此问题。 在这篇文章中,我们建议从特征学习的角度来解决变化检测问题。 提出了一种基于深度卷积神经网络特征的HR卫星图像变化检测方法。 主要准则是使用预先训练的CNN直接从两个图像生成change detection map 。 此方法可以避免 hand-crafted features的有限性能。 首先,通过不同的卷积层提取CNN特征。 然后,在归一化步骤之后评估concatenation步骤,从而生成唯一的高维特征图。 最后,使用像素级欧氏距离计算变化图。 根据定性和定量分析,我们的方法已经在实际的时态HRRS卫星图像上得到验证。 实验结果验证了该方法的有效性。

Keywords: Convolutional Neural Network (CNN), Change Detection (CD), High Resolution Remote Sensing (HRRS)

 

1 INTRODUCTION

变化检测(CD)是利用遥感图像进行许多应用的核心过程。它通过处理在同一地理区域内不同时间获得的两张(或更多)图像来识别地球表面发生的变化。CD用途广泛,包括土地用途和土地覆盖变化监测、风险评估、城市发展研究和环境调查。

基于hand-engineered features,已提出了多种算法来解决CD问题,例如图像差分(ID)[1],图像配比(IR)[1],主成分分析(PCA)[2], 变更向量分析(CVA)[3],期望最大化(EM)[4],图割[5],Parcel-based的方法[6]和马尔可夫随机场[7]。 为了计算这些手工设计的特征,应谨慎而精心地选择尺寸,比例和方向等参数。 而且,特征选择和组合是HR图像进行变化检测的另一个障碍。

我们的方法受到CNN模型的启发[8,9]。 该模型通过一系列处理步骤[8、9]将给定的输入顺序转换为预期的输出,通过学习的过滤器生成特征图的层次结构。 经过特定任务训练的CNN能够从图像中自动学习复杂的特征,并且与手工制作的特征相比,性能更高[8,9]。

这项工作遵循类似的思路,但有一个问题:“我们是否可以重新使用经过预先训练的深度CNN来检测双时HRRS卫星图像的变化?”

最近的一些研究证明,CNN的上层编码有关输入图像的高度抽象的信息[10]。 但是,他们将CNN feature用于一般任务,例如分类[11],其目的是对图像的整体表示进行分类,而不考虑图像中的对象位置。 较低级别的特征对correspondence很有帮助,但语义信息则需要较高级别的特征。为了得到两个方面的最佳效果,我们采用了一种特征融合策略,将所有特征映射叠加到高维hyper特征中(图1)。

图1. AlexNet [8]架构之上的hyper feature representation。 提取并连接5个卷积特征图,其中一个像素特征是该像素上所有单元激活的向量。伪色代表强度。

在这项工作中,我们提出了基于从CaffeNet [12]框架中提取的CNN特征的HRRS图像CD方法,并在大型辅助数据集[13]上进行了预训练。 通过使用简单的特征融合策略,我们堆叠了所有卷积特征图级别,以获得非常高维的特征[14]。

本文的主要贡献体现在一种新颖的CD方法的呈现上,该方法基于从为分类任务训练的深层CNN中提取的特征的融合。 这是HRRS映像CD领域中首次使用CNN feature。 文章的其余部分安排如下。 第二部分回顾了CaffeNet CNN模型。 第三节详细介绍了建议的CD方法。 第四节报告了实验和结果,第五节总结了我们的工作。

2 VISUALIZATION OF CONVOLUTIONAL NEURAL NETWORKS FEATURES

CNN被设计为交替的卷积层和最大池化层,然后是多个完全连接的层,这些层以前馈方式将输入图像从原始像素值转换为最终类分数。 典型的CNN如图1所示(AlexNet体系结构)。

卷积层输出一组特征图,其中的每个元素都是通过计算一组学习的权重(filters)与局部区域(receptive field)之间的点积获得的。 池化层通过计算局部区域的最大/最小/平均值来执行特征图的下采样操作。 最后,接上全连接层,最后一个完全连接的层是Softmax层,该层为每个定义的类计算分数。

同时,有许多著名和流行的CNN模型,例如AlexNet和CaffeNet。 这些模型已被证明对于物体检测和场景识别是有效的,并在ImageNet数据集上获得了最先进的性能[13]。 但是,它们在CD上的性能尚未得到充分探讨。 在下一部分中,我们将利用CD的CaffeNet模型。

CaffeNet。 基于AlexNet架构[8],在ILSVRC-2012数据集上进行了训练,使用用于快速特征嵌入的卷积架构(Caffe框架)[12],这是一种干净,可修改且快速的开源深度学习框架。 网络架构如图1所示。共有五个卷积层,三个maxpooling层和三个完全连接的层。 CaffeNet与AlexNet的不同之处在于两个小修改:(1)在没有数据增强的情况下进行了训练,(2)交换了normalization 和池化层的顺序。 通过可视化来自网络各个层的特征,我们可以更好地了解此模型学习到的特征。

来自第一层的信息在空间上比较深层更精确,但是缺少语义信息,而来自最后一个卷积层的信息在空间上过于粗糙(由于maxpooling序列等)。 为了获得两全其美的效果,我们将不同图层的特征连接起来,以获得每个像素的hyper vector ,作为激活该像素上所有CNN单元的向量。 我们将在下一节中介绍它。

图2。从不同层提取的特征的可视化,(a)参考图像。(b)通过227×227×3输入图像上的第一卷积层从ImageNet数据集学习的kernels 。可以看出,大多数的学习滤波器是不同位置和方向的边缘检测器。(c)、(d)、(e)、(f)、(g)是提取自:conv1、conv2、conv3、conv4、conv5的特征。可以看出,从第一卷积层提取的特征在空间上更加精确,随着深度的增加,丢失了空间细节,获得了更多的语义信息。

3 PROPOSED METHODOLOGY AND MODULE DESIGN

在该框架中,我们从不同的抽象层中提取了一组丰富的特征图来评估CD任务。在本节中,将详细介绍所提出的方法,并对所提出的框架进行简要的实验分析。我们的方法的pipeline如图3所示。

在大多数当前作品中,用作CNN输入的图像会根据网络输入尺寸(CaffeNet为227×227)调整为固定尺寸。 此过程可能会在图像下采样(池化)期间遭受信息丢失的困扰。 为了解决这个问题,我们将输入图像I1和I2划分为大小等于或小于网络输入大小s×s的,大小为g×g的N个规则正方形网格。 不管网格的长宽比如何,我们都将所有像素包裹在一个紧密 bounding box 中,以达到所需的输入大小。

3.1 Feature Extraction, Upsampling and Fusion

给定一个输入网格(作为最后一步的结果),我们从所有卷积层中提取特征,即Conv1,Conv2,Conv3,Conv4,Conv5。 由于下采样操作,这些特征的大小不相同。 为了组合这些 multi-level 图,可以通过简单的双线性插值进行上采样。 我们从最近的四个输入计算每个输出yij。 结果是一组相同大小的上采样特征。最后,在L2归一化之后,使用一个简单的特征连接,其中最终表示F的维数计算如下:

F = 96 + 256 + 384 + 384 + 256 = 1376

3.2 Change Map generation

给定一个hyper 特征,每个像素都表示为该像素上的所有CNN单元的激活向量。 得到双时态图像I1和I2中相同位置的两个像素之间的像素间距。在hyper向量k维的特征空间中进行欧氏距离运算,如下所示:

其中,k是特征维数。分别是位置i和j的第维处的特征值。 执行阈值化步骤以获得最终change map。 Otsu分割方法[15]以其更好的分割效果,易于计算和广泛的应用而在图像处理中得到广泛应用。 该算法假定任何图像都包含两类像素(例如,前景和背景)。 然后,它计算出将这两个类别分开的最佳阈值,以使它们的组合传播(类别内方差)最小。

4 EXPERIMENTS AND DISCUSSION

为了评估该方法的有效性,对双时态HRRS卫星图像进行了实验。 将该方法与图像差分ID和图像配比IR方法[1],block PCA方法[2],基于EM的方法,基于MRF的方法[4]和 Parcel-based 的方法[6]进行了比较。 实验需要图像配准和校正预处理步骤。 由于篇幅所限,本文仅显示两对图像。

4.1 Study area and dataset

使用双时态图像进行性能比较,这是由中国北京上空的QuickBird-2卫星拍摄的。其尺寸为1024×1024像素,如图4所示。参考、目标和 ground truth分别为(a)、(b)和(c)

为了更好的理解CD task中的CNN feature maps,我们通过计算每个层的change map来评估一系列的实验(图5)。

图5。CD结果可视化,(a) (b) (c) (d) (e):表示基于conv1、conv2、conv3、conv4、conv5的CD结果。(f)是基于hyper特征的CD结果。

为了直观比较,第一卷积层的CD在空间上更具有结构化,但由于其层次较低,无法检测到精确的变化。上层在语义上显示了更精确的变化,但边界是错误的。然而, hyper features 有最好的结果。

4.2 Visual results

三种方法产生的变更检测结果如图6所示。其中(GT)为ground truth image,(ID)和(IR)为图像减法和image rationing方法,(PCA)、(EM)、(MRF)、(Parcel)分别为:block PCA、基于EM的方法、基于MRF的方法和Parcel-based的方法得到的图像结果。(CaffeNet)图像是我们提出的方法的结果。

图6。 Change results:(GT) ground truth, (ID) image subtraction, (IR) image rationing, (CaffeNet) hyper features from CaffeNet。(PCA)block PCA方法[2],(EM)基于EM的方法,(MRF)基于MRF的方法[4]和(Parcel)Parcel-based 的方法[6]。黑色像素被归类为“无变化”,白色像素被归类为“变化”。

从精度上看,该方法效果最好,其次是Parcel和MRF方法,最后是图像减法。 从操作的角度来看, images subtraction 和image ratio方法具有相对简单的操作且花费更少的时间,其次是PCA,Parcel,MRF和EM方法,而所提出的方法则更为复杂且耗时。

4.3 Quantitative results

为了评估我们方法的有效性,我们对上述方法中最好的三种方法(PCA)block PCA方法,(EM)基于EM的方法和(MRF)基于MRF的方法进行了定量比较[4] 通过计算 false alarms,missed alarms,总错误率和kappa系数。

如表1所示,将该提议的方法与其他三种CD方法进行了比较,该提议的方法获得了最佳Kappa系数0.876,这意味着它是一个出色的方法。 我们的方法提出了一种通用方法,该方法可用于检测由于CNN特征而导致的土地使用和小范围覆盖区域的变化。

5 CONCLUSION AND FUTURE WORK

本文基于两个配准图像的CNN hyper features ,提出了一种新颖的CD,涵盖了在不同时间t1和t2拍摄的同一区域。 实验证明了CNN的features对CD任务的有效性。 通过融合多层信息,可以大大提高CD的性能。 该技术的缺点是需要更多的计算时间,并且需要 registration step。 在未来的研究中,我们计划研究更高级的策略,以获取高级空间信息和基于形状的特征编码过程,以改善表示的不变性。 还希望使用最新的更深的CNN,例如VGG-19 [9]和ResNet [16],并在UC Merced Land Use Dataset [17]和WHU- RS数据集[18]获取HRRS图像来fine-tune这些网络。

 

REFERENCES 
[1] Coppin, P.R., Bauer, M.E., "Digital change detection in forest ecosystems with remote sensing imagery," Remote Sensing Reviews 13, 207–234 (1996).

[2] Celik, T., “Unsupervised change detection in satellite images using principal component analysis and k-means clustering,” IEEE Geosci. Remote Sens. Lett 6, 772-776 (2009).

 [3] Johnson, R.D., Kasischke, E.S., “Change vector analysis: a technique for the multispectral monitoring of land cover and condition,” International Journal of Remote Sensing 19, 411–426 (1998).

[4] Bruzzone, Z.; Prieto, D.F., “Automatic analysis of the difference image for unsupervised change detection,” IEEE Trans. Geosci. Remote Sens 38, 1171-1182 (2000).

 [5] Chen, C. Huo, Z. Zhou and H. Lu., "Unsupervised Change Detection in SAR Image using Graph Cuts," Geoscience and Remote Sensing Symposium.  IGARSS 2008. IEEE International, Boston, MA, pp. III - 1162-III – 1165 (2008).

[6] Bovolo, F., “A multilevel parcel-based approach to change detection in very high resolution multitemporal images,” IEEE Geosci. Remote Sens. Lett 6, 33-37 (2009).  

[7] Kasetkasem and P. K. Varshney., "An image change detection algorithm based on Markov random field models," in IEEE Transactions on Geoscience and Remote Sensing, vol. 40, no. 8, pp. 1815-1823, (2002).

[8] A. Krizhevsky, I. Sutskever, and G. Hinton., “ImageNet classification with deep convolutional neural networks,” In NIPS, (2012).

[9] K. Simonyan and A. Zisserman., “Very deep convolutional networks for large-scale image recognition,” CoRR, abs/1409.1556, (2014).

[10] Matthew D Zeiler and Rob Fergus., “Visualizing and understanding convolutional networks,” In ECCV, pages 818–833. Springer (2014).

[11] Penatti, O.A.; Nogueira, K.; dos Santos, J.A., “Do Deep Features Generalize from Everyday Objects to Remote Sensing and Aerial Scenes Domains?” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, Boston, MA, USA, pp. 44–51 (2015).

[12] Jia, Y.; Shelhamer, E.; Donahue, J.; Karayev, S.; Long, J.; Girshick, R.; Guadarrama, S.; Darrell, T., “Caffe: Convolutional Architecture for Fast Feature Embedding,”. In Proceedings of the ACM International Conference on Multimedia, Orlando, FL, USA, 3–7 (2014).

[13] Russakovsky, O.; Deng, J.; Su, H.; Krause, J.; Satheesh, S.; Ma, S.; Huang, Z.; Karpathy, A.; Khosla, A.; Bernstein, M.; et al., “Imagenet large scale visual recognition challenge,”. Int. J. Comput. Vis. (2015).

[14] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik., “Hypercolumns for object segmentation and fine-grained localization,” In CVPR (2015).  

[15] N. Otsu., “A Threshold Selection Method from Gray-Level Histograms,” IEEE Transactions on Systems, Man, and Cybernetics, vol. 9, no. 1, pp. 62-66 (1979).

[16]  K. He, X. Zhang, S. Ren and J. Sun., “Deep Residual Learning for Image Recognition,” arXiv:1512.03385v1.

[17] Yang, Y.; Newsam, S., “Bag-of-visual-words and spatial extensions for land-use classification,” In Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems, San Jose, CA, USA, 2–5; pp. 270–279 (2010).

[18] Xia, G.S.; Yang, W.; Delon, J.; Gousseau, Y.; Sun, H.; Maitre, H., “Structrual High-Resolution Satellite Image Indexing,” In Processings of the ISPRS, TC VII Symposium Part A: 100 Years ISPRS—Advancing Remote Sensing Science, Vienna, Austria, 5–7 (2010). 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值