遥感目标检测(RSOD)是遥感领域中最基础且具有挑战性的任务之一,一直受到持久关注。近年来,深度学习技术展示出强大的特征表示能力,推动了RSOD技术的大幅发展。在这个技术快速演变的时代,本综述旨在全面介绍基于深度学习的RSOD方法的最新成就。
随着地球观测技术的快速发展,遥感卫星(例如,谷歌地球[1]、WordWide-3[2]和高分系列卫星[3]–[5])在空间、时间和光谱分辨率方面取得了显著进展,现在可获取大量的遥感图像(RSIs)。受益于可用RSIs数量的剧增,人类已进入一个遥感大数据的时代,RSIs的自动解释已成为一个活跃且具有挑战性的课题[6]–[8]。RSOD的目标是确定给定的RSI中是否存在感兴趣的对象,并返回每个预测对象的类别和位置。在本综述中,“对象”一词指的是人造或高度结构化的对象(如飞机、车辆和船只),而不是非结构化的场景对象(例如,陆地、天空和草地)。作为RSIs自动解释的基石,RSOD已受到了显著关注。
一般来说,RSIs通常以高空视角拍摄,具有不同的地面采样距离(GSDs),并覆盖地球表面的广泛区域。因此,地理空间对象在规模、角度和外观上表现出更显著的多样性。基于RSIs中地理空间对象的特点,我们总结了RSOD面临的五个主要挑战:(1)巨大的尺度变化。一方面,不同类别的对象通常具有大规模的尺度变化,如图1(b)所示:一辆车的像素面积可能小到10,而飞机可能比车大20倍。另一方面,同一类别内的对象也显示出广泛的尺度范围。因此,检测模型需要处理大尺度和小尺度的对象。(2)任意方向。独特的高空视角导致地理空间对象通常以任意方向分布,如图1(c)所示。这种旋转目标检测任务加剧了RSOD的挑战性,使得检测器需要对方向有很好的感知能力。(3)弱特征响应。通常,RSIs包含复杂的环境和大量的背景噪声。如图1(a)所示,一些车辆被阴影遮挡,周围的背景噪声往往与车辆具有相似的外观。这种复杂的干扰可能会淹没感兴趣的对象,并削弱其特征表示,导致感兴趣的对象呈现为弱特征响应[9]。(4)微小对象。如图1(d)所示,微小对象往往表现为极小的尺度和有限的外观信息,导致特征表示质量较差。此外,当前流行的检测范式不可避免地削弱或甚至丢弃微小对象的表示[10]。这些问题给现有检测方法带来了新的困难。(5)标注成本高。地理空间对象在尺度和角度方面的复杂特性,以及细粒度标注所需的专家知识[11],使得RSIs的准确框级标注成为一个耗时且劳动密集的任务。然而,当前基于深度学习的检测器严重依赖丰富的标签完好的数据来达到性能饱和。因此,在缺乏足够监督信息的情境下,高效的RSOD方法仍然具有挑战性。
为了应对这些挑战,过去二十年里出现了大量的RSOD方法。在早期阶段,研究人员采用了模板匹配[12]–[14]和先验知识[15]–[17]来进行遥感场景中的目标检测。这些早期方法更多地依赖于手工制作的模板或先验知识,导致结果不稳定。后来,机器学习方法[18]–[21]成为RSOD的主流,这些方法将目标检测视为一个分类任务。具体来说,机器学习模型首先从输入图像中搜索一组目标提案,并提取这些目标提案的纹理、上下文和其他特征。然后,它使用一个独立的分类器来识别这些目标提案中的对象类别。然而,机器学习方法基于浅层学习的特征显著限制了对象的表示,特别是在更具挑战性的场景中。此外,基于机器学习的目标检测方法不能以端到端的方式进行训练,这在遥感大数据的时代已经不再适用。
近年来,深度学习技术[22]已经证明了其从海量数据中进行强大特征表示的能力,而计算机视觉中的最先进的检测器[23]–[26]实现了与人类相媲美的目标检测能力[27]。借助深度学习技术的先进进展,各种基于深度学习的方法已经主导了RSOD,并在检测性能方面取得了显著的突破。与传统方法相比,深度神经网络结构可以提取高级语义特征,并获得更为强大的对象特征表示。此外,高效的端到端训练方式和自动化特征提取方式使基于深度学习的目标检测方法更适用于遥感大数据时代的RSOD。随着RSOD的普及,近年来已经发布了大量的地理空间对象检测调查[9],[28]–[34]。例如,程等人[29]回顾了RSOD的早期发展。韩等人[9]关注了RSIs中小型和弱对象的检测。在[30]中,作者回顾了飞机检测方法。李等人[31]根据各种改进策略,对遥感社区中基于深度学习的检测器进行了全面的调查。此外,一些工作[28],[33],[34]主要侧重于发布RSOD的新基准数据集,并简要回顾了遥感领域的目标检测方法。与以往的工作相比,本调查基于地理空间对象的特性,对RSOD面临的主要挑战进行了全面分析,并根据这些挑战系统地分类和总结了基于深度学习的遥感目标检测器。此外,本工作还回顾了300多篇关于RSOD的论文,从而得出了更全面和系统的综述。
总结而言,本综述的主要贡献如下:
• 我们基于地理空间对象的特性全面分析了RSOD面临的主要挑战,包括巨大的尺度变化、任意方向、弱特征响应、微小对象,以及昂贵的标注。
• 我们系统地总结了遥感领域中基于深度学习的目标检测器,并根据其动机以分层方式对其进行分类。
• 我们对RSOD的未来研究方向进行了前瞻性的讨论,以激发RSOD进一步的进展。
II. 多尺度目标检测
由于RSIs(遥感图像)之间的空间分辨率不同,巨大的尺度变化在RSOD(遥感目标检测)中是一个声名狼藉的难题,并严重降低了检测性能。如图3所示,我们展示了DOTAv2.0数据集[33]中每个类别的目标像素面积分布。显然,各个类别之间的尺度变化非常大,其中小型车辆的面积可能少于10个像素,而机场的面积超过了10^5个像素。更糟糕的是,巨大的类内尺度变化进一步加剧了多尺度目标检测的困难。为了解决巨大尺度变化的问题,当前的研究主要分为数据增强、多尺度特征表示和多尺度锚点生成。图4简要总结了多尺度目标检测方法。
III. 旋转目标检测
对象的任意方向是RSOD(遥感目标检测)中另一个主要的挑战。由于RSIs(遥感图像)中的对象是从鸟瞰角度获取的,它们表现出任意方向的属性,因此在通用目标检测中广泛使用的水平边界框(HBB)表示方法不足以准确地定位旋转对象。因此,众多研究者关注了地理空间对象的任意方向属性,这可以总结为旋转对象表示和旋转不变特征学习。图6简要地总结了旋转目标检测方法。
IV. 弱目标检测 RSIs
(遥感图像)中的感兴趣对象通常嵌入在具有复杂对象空间模式和大量背景噪声的复杂场景中。复杂的上下文和背景噪声严重损害了感兴趣对象的特征表示,导致对感兴趣对象的弱特征响应。因此,许多现有的工作集中在提高感兴趣对象的特征表示上,这可以分为两个方向:抑制背景噪声和挖掘相关上下文信息。图10简要总结了弱目标检测方法。
V. 微小目标检测
对于RSIs(遥感图像)来说,典型的地面采样距离(GSD)为1-3米,这意味着即使是大型对象(如飞机、船舶和储罐)也只能占据少于16×16像素。此外,即使在GSD为0.25米的高分辨率RSIs中,一个尺寸为3×1.5平方米的车辆也只覆盖了72像素(12×6)。RSIs中微小对象的普遍存在进一步增加了RSOD(遥感目标检测)的难度。当前关于微小目标检测的研究主要分为区别性特征学习、基于超分辨率的方法和改进的检测度量。图12简要总结了微小目标检测的方法。
结论
目标检测一直是遥感领域中一个基础但具有挑战性的研究主题。得益于深度学习技术的快速发展,遥感对象检测(RSOD)在过去十年里得到了极大的关注,并取得了显著的成就。在这篇综述中,我们系统地回顾和总结了RSOD中现有的基于深度学习的方法。首先,我们根据地理空间对象的特点总结了RSOD面临的五大主要挑战,并将这些方法分类为五个主要流派:多尺度对象检测、旋转对象检测、弱对象检测、微小对象检测,以及有限监督的对象检测。接着,我们采用了一种系统性的分层方法来回顾和总结每个类别中的方法。然后,我们介绍了RSOD领域的典型基准数据集、评价指标和实际应用场景。最后,考虑到现有RSOD方法的局限性,我们讨论了一些未来研究的有前景的方向。鉴于RSOD在高速技术演变的这一时期,我们相信这份调查能够帮助研究人员更全面地了解该领域的主要课题,并找到未来研究的潜在方向。
参考文献:
[1] N. Gorelick, M. Hancher, M. Dixon, S. Ilyushchenko, D. Thau, and R. Moore, “Google earth engine: Planetary-scale geospatial analysis for everyone,” Remote Sens. Environ., vol. 202, pp. 18–27, 2017.
[2] D. Lam, R. Kuzma, K. McGee, S. Dooley, M. Laielli, M. Klaric,Y. Bulatov, and B. McCord, “xview: Objects in context in overhead imagery,” 2018. [Online]. Available: http://arxiv.org/abs/1802.07856
[3] Z. Li, H. Shen, H. Li, G. Xia, P. Gamba, and L. Zhang, “Multi-feature combined cloud and cloud shadow detection in gaofen-1 wide field of view imagery,” Remote Sens. Environ., vol. 191, pp. 342–358, 2017.
[4] S. Zhang, R. Wu, K. Xu, J. Wang, and W. Sun, “R-cnn-based ship detection from high resolution remote sensing imagery,” Remote Sens., vol. 11, no. 6, p. 631, 2019.
[5] Y. Wang, C. Wang, H. Zhang, Y. Dong, and S. Wei, “Automatic ship detection based on retinanet using multi-resolution gaofen-3 imagery,” Remote Sens., vol. 11, no. 5, p. 531, 2019.
[6] X. X. Zhu, D. Tuia, L. Mou, G.-S. Xia, L. Zhang, F. Xu, and F. Fraundorfer, “Deep learning in remote sensing: A comprehensive review and list of resources,” IEEE Geosci. Remote Sens. Mag., vol. 5, no. 4, pp. 8–36, 2017.
[7] L. Zhang, L. Zhang, and B. Du, “Deep learning for remote sensing data: A technical tutorial on the state of the art,” IEEE Geosci. Remote Sens. Mag., vol. 4, no. 2, pp. 22–40, 2016.
[8] L. Zhang and L. Zhang, “Artificial intelligence for remote sensing data analysis: A review of challenges and opportunities,” IEEE Geosci. Remote Sens. Mag., vol. 10, no. 2, pp. 270–294, 2022.
[9] W. Han, J. Chen, L. Wang, R. Feng, F. Li, L. Wu, T. Tian, and J. Yan,“Methods for small, weak object detection in optical high-resolution remote sensing images: A survey of advances and challenges,” IEEE Geosci. Remote Sens. Mag., vol. 9, no. 4, pp. 8–34, 2021.
[10] C. Xu, J. Wang, W. Yang, H. Yu, L. Yu, and G.-S. Xia, “Detecting tiny objects in aerial images: A normalized wasserstein distance and a new benchmark,” ISPRS J. Photogrammetry Remote Sens., vol. 190, pp. 79–93, 2022.
[11] J. Yue, L. Fang, P. Ghamisi, W. Xie, J. Li, J. Chanussot, and A. Plaza, “Optical remote sensing image understanding with weak supervision: Concepts, methods, and perspectives,” IEEE Geosci. Remote Sens.Mag., vol. 10, no. 2, pp. 250–269, 2022.
[12] C. Xu and H. Duan, “Artificial bee colony (abc) optimized edge potential function (epf) approach to target recognition for low-altitude aircraft,” Pattern Recognit. Lett., vol. 31, no. 13, pp. 1759–1772, 2010. [13] X. Sun, H. Wang, and K. Fu, “Automatic detection of geospatial objects
using taxonomic semantics,” IEEE Geosci. Remote Sens. Lett., vol. 7, no. 1, pp. 23–27, 2010.
[14] Y. Lin, H. He, Z. Yin, and F. Chen, “Rotation-invariant object detection in remote sensing images based on radial-gradient angle,” IEEE Geosci. Remote Sens. Lett., vol. 12, no. 4, pp. 746–750, 2015.
[15] H. Moon, R. Chellappa, and A. Rosenfeld, “Performance analysis of a simple vehicle detection algorithm,” Image Vis. Comput., vol. 20, no. 1,pp. 1–13, 2002.
[16] S. Leninisha and K. Vani, “Water flow based geometric active deformable model for road network,” ISPRS J. Photogrammetry Remote Sens., vol. 102, pp. 140–147, 2015.
[17] D. Chaudhuri and A. Samal, “An automatic bridge detection technique for multispectral images,” IEEE Trans. Geosci. Remote Sens., vol. 46,no. 9, pp. 2720–2727, 2008.
[18] G. Cheng, J. Han, P. Zhou, and L. Guo, “Multi-class geospatial object detection and geographic image classification based on collection of part detectors,” ISPRS J. Photogrammetry Remote Sens., vol. 98, pp.119–132, 2014.
[19] L. Zhang, L. Zhang, D. Tao, and X. Huang, “Sparse transfer manifold embedding for hyperspectral target detection,” IEEE Trans. Geosci.Remote Sens., vol. 52, no. 2, pp. 1030–1043, 2013.
[20] J. Han, P. Zhou, D. Zhang, G. Cheng, L. Guo, Z. Liu, S. Bu, and J. Wu, “Efficient, simultaneous detection of multi-class geospatial targets based on visual saliency modeling and discriminative learning of sparse coding,” ISPRS J. Photogrammetry Remote Sens., vol. 89,pp. 37–48, 2014.
[21] H. Sun, X. Sun, H. Wang, Y. Li, and X. Li, “Automatic target detection in high-resolution remote sensing images using spatial sparse coding bag-of-words model,” IEEE Geosci. Remote Sens. Lett., vol. 9, no. 1,pp. 109–113, 2011.
[22] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” nature, vol. 521,no. 7553, pp. 436–444, 2015.
[23] S. Ren, K. He, R. B. Girshick, and J. Sun, “Faster R-CNN: towards realtime object detection with region proposal networks,” in Proc. Annu. Conf. Neural Inf. Process. Syst, 2015, pp. 91–99.
[24] J. Redmon and A. Farhadi, “YOLO9000: better, faster, stronger,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), 2017, pp.6517–6525.
[25] T. Lin, P. Goyal, R. B. Girshick, K. He, and P. Dollar, “Focal loss for dense object detection,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV),2017, pp. 2999–3007.
[26] Z. Tian, C. Shen, H. Chen, and T. He, “FCOS: fully convolutional onestage object detection,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV),2019, pp. 9626–9635.
[27] L. Liu, W. Ouyang, X. Wang, P. W. Fieguth, J. Chen, X. Liu, and M. Pietikainen, “Deep learning for generic object detection: A survey,” ¨Int. J. Comput. Vis., vol. 128, no. 2, pp. 261–318, 2020.
[28] K. Li, G. Wan, G. Cheng, L. Meng, and J. Han, “Object detection in optical remote sensing images: A survey and a new benchmark,” ISPRS J. Photogrammetry Remote Sens., vol. 159, pp. 296–307, 2020.
[29] G. Cheng and J. Han, “A survey on object detection in optical remote sensing images,” ISPRS J. Photogrammetry Remote Sens., vol. 117, pp.11–28, 2016.
[30] U. Alganci, M. Soydas, and E. Sertel, “Comparative research on deep learning approaches for airplane detection from very high-resolution satellite images,” Remote Sens., vol. 12, no. 3, p. 458, 2020.
[31] Z. Li, Y. Wang, N. Zhang, Y. Zhang, Z. Zhao, D. Xu, G. Ben, and Y. Gao, “Deep learning-based object detection techniques for remote sensing images: A survey,” Remote Sens., vol. 14, no. 10, p. 2385,2022.
[32] J. Kang, S. Tariq, H. Oh, and S. S. Woo, “A survey of deep learningbased object detection methods and datasets for overhead imagery,”IEEE Access, vol. 10, pp. 20 118–20 134, 2022.
[33] J. Ding, N. Xue, G. Xia, X. Bai, W. Yang, M. Y. Yang, S. J. Belongie,J. Luo, M. Datcu, M. Pelillo, and L. Zhang, “Object detection in aerial images: A large-scale benchmark and challenges,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 44, no. 11, pp. 7778–7796, 2022.
[34] X. Sun, P. Wang, Z. Yan, F. Xu, R. Wang, W. Diao, J. Chen, J. Li,Y. Feng, T. Xu, M. Weinmann, S. Hinz, C. Wang, and K. Fu, “Fair1m:A benchmark dataset for fine-grained object recognition in high-resolution remote sensing imagery,” ISPRS J. Photogrammetry Remote Sens., vol. 184, pp. 116–130, 2022.