【空中对抗】复杂场景下基于外观和运动信息的无人机检测

本文介绍了空对空无人机检测的挑战,如模糊目标、复杂背景和小尺寸目标。研究团队提出GLAD算法,结合运动信息和外观特征,有效解决这些问题,并在ARD-MAV数据集上展示了优越性能。
摘要由CSDN通过智能技术生成

06b63c81164e8bb238bd824b0fdf7e28.png

近年来,基于视觉的无人机检测因为其在许多领域的重要应用,受到了越来越广泛的关注。例如无人机集群、空中感知和避障、恶意无人机检测等。不同于现有的一些研究工作主要考虑地对空场景,我们的团队更加关注空对空无人机检测及其在无人机追捕、无人机集群中的应用。

空对空无人机检测相对于传统的无人机检测任务具有更多的挑战,主要体现在:1)相机的自身运动导致目标外观模糊,简单的运动目标检测方法也难以适用;2)空中视角下,目标无人机很容易与复杂的背景物体混为一体(如图1.a所示);3)当目标无人机距离较远时,无人机在图像中的尺寸可能非常小(如图1.b所示);4)机载计算机的计算资源有限,检测算法的复杂度不能太高。这些挑战导致空对空无人机检测依旧是一个开放的挑战难题。

035647c71ea3b0a65712048f5db436ef.png(a)复杂背景下的无人机

0331c7b06fb7a810683dd1ef623decfc.png(b)小尺寸无人机

图1. 空对空无人机检测面临的挑战

我们先前的文章介绍到,现有的一些基于外观特征[1, 2]基于运动特征[3,4,5]的方法在解决上述问题时依然面临很多困难。为了解决空对空无人机检测面临的这些挑战,我们近期针对上述问题进行了一系列研究,并提出了一个新的无人机检测器GLAD(Global-Local MAV Detector)。GLAD能够在背景复杂、目标尺寸小等挑战场景下有效检测到无人机,并且能够在移动端实现接近实时的推理速度。下面我们将详细地介绍这个算法是如何实现挑战场景下的无人机检测及高效的推理速度。

6a3dc291678259b857c4efdbc0773400.png

基于运动信息的无人机检测

45cc6197b086d2a8b607079814a6f741.png

由于在挑战场景下,无人机的外观特征变得不再可靠,运动信息的辅助成为了检测无人机的重要手段。一般而言,运动特征的提取主要包括光流法背景消减类方法。基于光流法的运动目标检测同时适用于静止相机和运动相机场景,噪声少,但是对于光流向量的质量要求非常高,当目标较小或者背景较复杂时,光流很难生成。如图2.a所示,当目标尺寸较大或者目标与背景对比很明显时,深度光流网络RAFT[6]可以成功提取出运动无人机的轮廓。但是当目标尺寸较小或者背景较复杂时,RAFT很难提取到目标的运动特征(如图2.b所示)。

背景消减类方法直接采用像素值差分来分离出不同于背景的一组像素块,并通过一些后处理来提取运动信息。背景消减类方法在运动目标检测中得到了广泛的应用,并被证实能够在极小飞行目标的检测上取得理想的效果[7,8]。不过现有的这些工作主要是针对相机静止或者高空俯视的场景,当相机的运动不可忽视,且背景非平面时,无人机运动信息的提取变得困难得多。为了在挑战场景下提取到无人机的运动信息,我们提出了一个简单而又高效的运动信息提取方法。

首先,我们采用2D透视变换对连续多帧图像进行对齐。然后,基于对齐后的图像,直接采用多帧差分法得到二值化图像。最后,利用阈值分割形态学操作连通域分析等方法分割出运动目标轮廓。如图2.c所示,我们提出的方法可以有效地在复杂背景下和小尺寸无人机场景下,提取到无人机的运动信息。

592c4b5099d8083c56cb5266024a6c47.png

183ccfa8df7e10e9f9b594d07716ccf1.png

2204261862e07381c5aa83cdc2f139ae.png

图2. 无人机运动信息的提取。(a)RAFT成功提取目标的运动信息;(b)RAFT在挑战场景下提取运动信息失败;(c)我们提出的方法在挑战场景下成功提取出无人机运动信息。(向右滑动依次为图a,b,c)

然而,上述方法提取的运动信息,既包括了运动的无人机,也包括了一些其他的运动物体和图像对齐误差。为了消除这些干扰物体的影响,我们设计了一个运动信息分类器和一个外观信息分类器对候选的运动目标进行分类。

首先,由于摇晃的树枝、闪烁的水面以及部分图像对齐误差在运动方向和运动幅度上是散乱且无规律的,而无人机基本上可以视为一个运动的刚体,在运动特征上保持了一致性。因此,我们可以利用候选运动目标的运动特征进行统计分析来直接剔除这些干扰目标。我们在候选运动目标区域提取Shi-Tomas角点,然后基于运动向量的方向和幅值的统计规律来设计一个分类器,来剔除上述干扰物体的影响。

经过运动信息分类器处理后的运动目标中依然包括了一些干扰物,例如行驶中的汽车、行人、飞鸟和部分图像对齐误差。这些干扰物体和无人机具有相同的运动特征但是不同的外观特征,因此我们采用了一个外观信息分类器对这些目标进行分类。由于这里的外观信息分类器需要多次调用,我们设计了一个浅层的神经网络(网络结构如图3所示)。我们直接利用经过运动信息分类器处理后的运动目标局部图片对网络进行训练,网络的输入图片尺寸为32×32,输出结果代表目标是无人机或者干扰物。

e0353c6fa9e166cc170e508a20ea8314.png图3. 外观信息分类器的网络结构

运动目标检测算法的完整流程,如图4所示。可以看到,经过运动补偿、运动目标检测、无人机分类之后,我们可以成功地检测到无人机目标。

1b4ba053dce301986343682b17ec676e.png图4. 运动目标检测算法流程图

447288e779479f69b04c1a6af0789592.png

全局-局部无人机检测

cb893bb98973225e71576c568e072631.png

上述方法能够在复杂背景和小尺寸目标场景下成功地检测到无人机,但是存在计算量较大,难以检测静止无人机等问题,而且算法没有充分利用输入视频的长序列信息。为了进一步提高检测成功率和运算效率,我们引入了基于外观的检测器来检测静止无人机,并采用了全局-局部的架构来提升算法的鲁棒性和运算速度。本文提出的无人机检测器GLAD算法架构如图5所示,主要由Global Detector,Local Detector,Detector Switcher三部分组成。

首先,我们在1920×1080的全尺寸图像中采用Global Detector进行无人机搜索。这里的Global Detector由一个基于外观的无人机检测器(GAD)和一个上文提到的基于运动的无人机检测器(GMD)组成。GAD可以直接检测到尺寸较大或者背景简单场景下的无人机,而GMD可以在挑战场景下弥补GAD的不足。在Global Detector成功检测到目标无人机之后,我们会在目标中心位置周围裁剪出一个300×300的区域,作为下一帧检测的局部搜索域,同时激活Local Detector。这里的Local Detector也是由一个基于外观的无人机检测器(LAD)和一个基于运动的无人机检测器(GMD)组成,不过采用了局部图像进行算法训练和推理。由于局部搜索域的尺寸和检测网络输入尺寸一致,相较于全局检测器而言,目标的分辨率得到了大幅度的提升,同时局部搜索域也剔除了大部分无关背景的干扰。因此,算法在挑战场景下的检测成功率和推理速度都获得了极大的提升。最后,为了避免Local Detector在遇到遮挡、背景过于复杂等场景时连续检测失效而陷入错误的局部搜索域,我们设计了一个Detector Switcher来自适应的切换Global Detector和Local Detector。Detector Switcher会根据前面数帧的检测结果来切换Global Detector和Local Detector。

71d00485aadd159238b30c4ac84f6b5f.png图5. 全局-局部无人机检测器GLAD的算法框架

2bcc96550a85d26e5e259ca5aa3c4b1b.png

实验验证

52d9cf4e7c746baa29aa20a4ce1117cd.png

为了验证我们提出的算法有效性,我们制作了一个新的无人机检测数据集 ARD-MAV。这个数据集由60个视频106,665帧图片组成。所有视频由DJI M300和MAVIC2在中低空场景飞行拍摄,目标无人机为DJI Phantom4。数据集包含了复杂背景、非平面场景、目标遮挡、相机剧烈运动、运动模糊、小目标无人机等多种挑战场景(数据集的一些样例图片如图6所示)。数据集的图片分辨率为1920×1080,目标平均尺寸仅为图像尺寸的0.02%,是现有的无人机检测数据集中最小的。目前数据集已公开在如下地址:https://github.com/WestlakeIntelligentRobotics/GLAD。

4346f6fa85bf8e9acfc4e3658da8c641.png

e4a11168d57cab7d8c81d1e625bc6abc.png

d57bb7631744d649433b348c536d339b.png

d8ed3a39f0673947eb1ee0090583c719.png

2ab4007c0278a524d2f6604786d09127.png

07685aa2f9b66b218486c487d6fd1ea9.png

bd2d13267de18b30decc30afba79a77e.png

图6. ARD-MAV数据集的一些样例图片

(左右滑动查看更多)

47d2a05fbdbbeccdf334f1564c69f166.png

基于ARD-MAV数据集,我们进行了大量的实验,并对比了一些现有的无人机检测算法。实验结果表明,我们提出的算法能够在复杂背景和小目标场景下成功地检测到无人机(如图7所示),并且算法在多项指标上超越了已有的算法(如图8所示)。同时,我们在NVIDIA Jetson Xavier NX平台上进行了移动端算法部署和推理测试,可以达到平均23.6FPS的推理速度,为将来移动端的实验应用奠定了基础。

93a2e02f1fe80a5af9cc8459944dcb8a.png

fbda85f8fb2e85651ab362f632e195b6.png

71cc3249304f4199eed86d5625be3232.png

04b17f7fcb6cc9bd44cb699152ea5de8.png

f961a1e27047bb3f81bca9b93c25750e.png

c15f5c9e032f61486dce70b4e9c9f52a.png

9de65e5eba910d7dfa59ba3649da8181.png

图7. GLAD算法在挑战场景下成功检测到无人机的样例

(左右滑动查看更多)

fbd4aa5293bb37264bf540ce424a9503.png

67bb45a433a9cce0ebc8f808c0a9e906.png图8. 本文提出的GLAD算法与SOTA算法的比较

32ce475d36cb286a0c6f25bee21200a2.png

0baf5d9c1ebeca6af4011c687b7bbaca.png

相关链接

论文

https://arxiv.org/abs/2312.11008

数据集

https://github.com/WestlakeIntelligentRobotics/GLAD

参考文献

[1] Y. Zheng, Z. Chen, D. Lv, Z. Li, and S. Zhao, “Air-to-air visual detection of micro-UAVs: An experimental evaluation of deep learning,” IEEE Robotics and Automation Letters, vol. 6, no. 2, pp. 1020–1027, 2021.

[2] B. K. S. Isaac-Medina, M. Poyser, D. Organisciak, C. G. Willcocks, T. P. Breckon, and H. P. H. Shum, “Unmanned aerial vehicle visual detection and tracking using deep neural networks: A performance benchmark,” in Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), pp. 1223–1232, 2021.

[3] J. Li, D. H. Ye, M. Kolsch, J. P. Wachs, and C. A. Bouman, “Fast and robust UAV to UAV detection and tracking from video,” IEEE Transactions on Emerging Topics in Computing, vol. 10, no. 3, pp. 1519– 1531, 2021.

[4] A. Rozantsev, V. Lepetit, and P. V. Fua, “Detecting flying objects using a single moving camera,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, pp. 879–892, 2017.

[5] M.W.Ashraf, W.Sultani, and M.Shah, “Dogfight: Detecting drones from drones videos,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 7067–7076, 2021.

[6] Z. Teed and J. Deng, “Raft: Recurrent all-pairs field transforms for optical flow,” in Proceedings of the 16th European Conference on Computer Vision (ECCV), pp. 402–419, Springer, 2020.

[7] M. Uzair, R. S. Brinkworth, and A. Finn, “Bio-inspired video enhancement for small moving target detection,” IEEE Transactions on Image Processing, vol. 30, pp. 1232–1244, 2020.

[8] J. Xie, C. Gao, J. Wu, Z. Shi, and J. Chen, “Small low-contrast target detection: Data-driven spatiotemporal feature fusion and implementation,” IEEE Transactions on Cybernetics, vol. 52, no. 11, pp.

本文转载自西湖大学智能无人系统课题组

 作者  |  sky-guo

e2ae9281066d60a81449e26dfd1ef837.jpeg

END

欢迎加入「无人机视觉交流群👇备注:无人机

6ab503606faa6426bb1ca4ac65a1b2f6.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值