【论文阅读】Fast and Accurate Object Detection Using Image Cropping/Resizing in Multi-View 4K Sports Video

摘要

近期,快速准确地深度神经网络目标检测器(例如YOLO和SSD)已经引起了相当的关注。然而,在实时处理输入为4K的高清视频数据时,仍面临数据量大和检测目标太小的问题。本文提出了一种新方法,显著的提升物体检测行能。显然,在运动场中,检测目标(如运动员和球)所在区域在视频中非常明显,我们可以利用视角关系和常理,对图片进行裁剪,减少需要处理的区域。然而,如果检测目标过小,对单张图片进行的裁剪可能造成检验准确度的降低。进一步的观察发现,检测可以通过对小物体适度的尺度改变提升检测结果。本文实验在两场实际足球赛中进行,确认我们可以快速的在高分辨率图片中检测得到小分辨率物体。

1.简介

随着越来越多消费级相机和智能手机支持4K分辨率,4K视频数据变得越来越容易获取。同时,4K显示屏也应运而生。如之前strategy analytics预测,在2020年之前超过一半的美国家庭期将拥有4k分辨率的电视。虽然观看4k分辨率的视频能带来更好的观影效果,但是制作4K视频也会花费远超低分辨率视频(如HD,SD)的时间。更进一步的是,多路4K视频可以在同时提供相同现场视频的基础上提供更多的视角供观看者选择。然而,在处理多路4K高清视频的时候也会面临计算资源受限的巨大挑战。
对于运动视频如足球,棒球来说,检测运动员和球类非常重要,深度神经网络目标检测器在该方面表现得非常好。然而,众所周知的是,深度神经网络检测器非常本中,在大多数情况下需要在GPU上运行。因此,许多快速的DNN结构被提出,如SSD,YOLO。通常情况下,随着输入到神经网络的图片分辨率的增加,网络进行交互所需的计算时间就会越长(如Tijtgat et al.;Em-
bedded Real-Time Object Detection for a UAV Warning System. In 2017 IEEE
International Conference on Computer Vision Workshops)他们指出在使用YOLO9000或者TinyYOLO处理高分辨率4k视频的时候大约只有5fps的检测速率(其中原图被resize到416*416).因此,使用快速检测器检测高分辨率视频的情况下,由于存在大量的数据运算,算力不足,并且图中需要检测的物体过小,检测过程中依然存在巨大的挑战。本文提出了一个解决方案使4K高清视频的检测能得到较高的准确率。
一般情况下,我们使用大小与DNN输入要求一致的滑动窗口,对高清视频中的每帧图片进行检测,这种方法需要大量的资源。如果我们将每帧图片缩小到适应DNN网络的输入,检测结果会相对提高一些,不过检测效果会非常差,漏检率非常高。通常情况下,处理区域大小直接决定了处理时间。因此,自然而然的我们想到了用减少需要处理的区域,以此提高检测率。一个明显的事实是需要检测的物体在视频图像中相当的明显,因此,我们需要确定目标位置,然后对原始图像进行适当的裁剪。然而,在目标得到检测之前,这些都是未知的。这听起来像个鸡蛋和鸡的问题。本文,我们使用时间和视图相关方法解决这个问题。
在这里插入图片描述
当我们将注意力集中在裁剪图片上市,背景信息就丢失了,这会带来更糟糕的目标检测准确率。我们发现尽管容易检测的物体DNN检测器表现得非常好,但是难以检测的物体还是会漏检。进一步的观察发现检测的结果对物体的大小非常敏感。因此, 我们可以通过适度放大需要检测的物体避免检测目标过小导致失败。
为了分析我们的方法,我们使用了4台4K相机同时对两场J1联盟的足球比赛进行录制,以测试准确率和检测时间。实验结果说明了我们方法的有效性,让速度提高了9倍,并且保证了高的检验率。简单的说,我们主要贡献如下:
·为了提高检测率,我们通过物体所在区域,对4K图片进行了裁剪,原则取决于多路4K视频的时间和视角关系。我们最基本的观测运动视频都有显著的运动员和球。
·为了提高检测准确率,我们发现了DNN检测器检测失败的原因,并且对小物体进行适度的放大,因此提高了检测的准确率。
本文其余部分安排如下。在第二部分简单的陈述了相关工作。我们在第三部分中描述了方法的细节。第四部分为实验结果。第五部分为总结。

2.相关工作

本部分,我们简短的介绍一下目标检测方面流行的深度结构和近期的运动分析技术。这些涵盖了整个目标检测领域和运动分析领域。

2.1目标检测

作为目标检测中艺术级别的技术,Faster R-CNN使用两步的目标检测策略,在流行的数据集中能获得较高的检测效率(如COCO)。然而,该方法的计算消耗依然很高,通常需要使用GPU进行计算。因此,单步检测器(诸如YOLO系列)和SSD被提出,他们可以在有较高检测效率的基础上更快的运行。YOLO是单步的基于边框预测和分类检测的端到端卷积神经网络。然而,在检测小物体的方面,YOLO依旧十分乏力。因此,SSD被提出,并且改进了YOLO的方法。随着多尺度特征映射和默认框机制的引入,SSD可以检测小尺度的物体,并获得与YOLO相比更准确的定位精度。另一方面,YOLO也在解决自己出现的问题。最新版本的YOLO v3使用了三个不同的尺度,并且利用了一个更深并且含有残差层的强大深度框架。
最近,小物体的检测方法不断被提出,并且大多关于人脸检测。胡等人(P. Hu and D. Ramanan. 2017. Finding Tiny Faces. In 2017 IEEE Con-
ference on Computer Vision and Pattern Recognition (CVPR). 1522–1530. https://doi.org/10.1109/CVPR.2017.166)使用背景信息如头发,肩膀等对微小的脸进行检测,但是球和运动员背景信息过于微小。Bai等人(Yancheng Bai, Yongqiang Zhang, Mingli Ding, and Bernard Ghanem. 2018. Finding tiny faces in the wild with generative adversarial network. In 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 21–30.)使用生辰对抗网络生成超分辨率人脸,但在本实验中会增加计算消耗并且超出本文实验目的所需质量。我们的实验说明了放大小物体、产生较少计算消耗的方式是足够有效的。

2.2运动分析

自2013年以来在CVPR或ICCV已经举办的四个关于体育计算机视觉的研讨会上,基于视觉的球员/球的检测对于分析球权归属、球员识别、行为识别等问题很有帮助。研讨会上发表的文章也指出了深度学习方法在球员/球的检测识别中是很有效的。例如,运动员和球可以使用YOLO9000或者其他深度学习方法检测得到。
在4K运动视频中的一个挑战是基于诸如实况直播、VR/AR等应用需求带来的实时处理要求。将4K信号重新整合到更小的尺寸是一个有效的方法,但是会损失检测、尤其是针对小物体检测的有效性。另一种方法是并行处理,但因此会需要计算能力更强的硬件设备。这种方法对于4K多视角运动视频来说实现起来相当困难。据我们所知,少有关于多路4K运动视频的研究,其中的前提和挑战均为如何有效的处理大量的数据以及有效的利用视图相关性。

3.提出方法

3.1先决条件和条件检查

在本节,我们描述了一些实现我们方法所需要的先决条件,检查了一些基础条件。首先,我们确定检测运动员和球是基于每帧或者是每N帧进行的。虽然物体追踪技术是同事应用的,但是像Rematas等人的近期工作一样(Konstantinos Rematas, Ira Kemelmacher-Shlizerman, Brian Curless, and Steve Seitz. 2018. Soccer on Your Tabletop. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4738–4747),物体检测可以在足球视频中独立进行。因此,和他们的方法类似,我们相信在每帧或者每N帧中检测物体时有道理的。其次,我们选择了一个摄像机作为我们的基础相机。我们假定只有我们基础摄像机捕获的运动员和球使我们检测的目标。这意味着,我们不用分析基础摄像机未捕获到的其他运行员和球。在我们的足球视频中,所有的运动员和球均被任一摄像机捕获。因此,我们相信在实验时这个先决条件不会引起严重的问题。
条件#1:对象的稀疏程度。
本文中,一个基本观点是运动员和球所在的区域在足球视频中是稀疏的。我们在分辨率为10241024的滑动窗口中使用Mask R-CNN从每个照相机获取的每帧图片中检测球和运动员的存在。两次实验的检测结果如图二所示,说明了检测结果的准确性。通过检测结果,我们计算了运动员和球边框的比例,如图三所示,说明了运动员和球在4K足球视频中相当的稀疏(小于1%)。
条件#2:图片剪切会恶化检测准确度。
在416
416的滑动窗口中,我们使用YOLOv3或SSD检测人和球,输出如图4所示,很好。然而,我们如果人工裁剪出人和球,再进行检测,我们可能会露肩许多物体,如图4所示,球就没有检测出来。这是因为检测需要必要的背景信息在裁剪时丢失掉了。如果我们延伸球所在的区域,同样使用YOLOv3和SSD,我们可以重新检测到该球,如图四所示。然而,如果物体真的特别小,就算在原图中进行滑动窗口,该物体也难以被检测到。因此,裁剪带有足够背景信息的目标区域也不是真正解决问题的办法。
在这里插入图片描述
条件#3:物体尺度和检测置信度。
在我们的实验中,我们发现增加物体的尺度可以很有效的提高小物体检测的准确度,然而,如果物体被放大过多,图片会变得相当模糊,可能会造成误检。我们在图六中花了展示物体大小关系和检测准确度的曲线关系图,也画出了不同类物体之间不同的曲线。结果显示,在物体尺度改变时,准确度会出现一个尖峰。在物体过小或者过大时,也将难以进行检测。注意,物体的尺度可以当做边框大小进行计算。
在这里插入图片描述
在这里插入图片描述

3.2照相机的对应关系

在目标检测之前, 我们使用RANSAC算法先计算每个照相机平面之间的平面单应变换参数。这个操作只在第一帧进行一次,因为摄像机的位置是保持不变的。因为足球场接近一个平面, 我们只需要4个点去计算每两个摄像机之间的但应变换参数。我们人工选择了足球场中的十个点,如图1中红圈所示。这是个点都可以从四个摄像机观测到。有了变换参数,我们可以在每一帧中将运动员的位置映射到同帧的其他的相机中。如图7所示的一个例子,其中来自四个摄像机的十个点的平均误差为4.2个像素。摄像机之间的运动员和球的关系对于目标区域的裁剪很有帮助,如3.3部分所描述的。

3.3检测过程

在这部分描述了我们提出的检测过程。对每帧来说,检测过程如下。
step 1:在基准摄像机中检测运动员和球
step 1-1:通过背景减除决定要处理的候选区域。
简单的帧间差分是有效并且有用的处理背景减除的方法。如图8所示的来自摄像机1的两帧结果。然而,因为静止的远动员可能在帧间差分中被消除,我们也可以保留前三帧的处理区域。
在这里插入图片描述
step 1-2:根据待检测区域,在其上使用滑动窗口序列运行DNN目标检测器。
在基准摄像机中,我们在物体检测之前并不知晓物体的位置,这在第一部分中被称为鸡生蛋和蛋生机的问题。因此,我们必须对潜在目标区域进行适度的处理。我们以一个416416的滑动窗口划过整张图。在每个窗口中,如果存在前景像素,我们进行YOLOv3 去检测目标。否则,我们跳过这个滑动窗口,取运行接下来的一个。如果图片区域比滑动窗口小,我们填0.
我们输出目标在滑动窗口中的位置和滑动窗口在图片中的位置。第i个物体的位置是从左上角到右下角的边框,记作:在这里插入图片描述
第j个滑动窗口的坐标也是从左上到右下,记作:在这里插入图片描述
接着,第k个滑动窗口中检测出来的第i个物体,我们计算出他的绝对位置:在这里插入图片描述
因而计算得绝对位置:
在这里插入图片描述
step 2:在其他图片中检测运动员和球的位置。
step 2-1:通过平面变换参数,决定其他相机中需要处理的区域。
step 2-2:从处理序列中裁剪出目标所在区域序列,接着运行DNN目标检测器
在我们在相机K中获得目标的位置时,我们可以合成一个对象区域按序列裁剪的新图像。视图相关性是解决1中所在问题的关键点,细节如下。
首先,我们决定了第i个目标区域在目标相机K中的位置。因为我们知道目标相机中的两个端点,我们可以计算出底部边框线的长度,将基础摄像机中的尺度变换到目标相机中。
在这里插入图片描述
Sk(i)和Sb(i)代表第i个物体在目标相机k中的大小和在b相机中的大小,Len代表两幅图中底部边框的长度。进一步的,我们把目标区域乘以1.5以包含更多的背景信息作为我们出事的目标区域。
其次,我们判断是否物体的分类和大小难以检测。由于摄像机之间的对应关系,对象类与基础摄像机中检测到的对象类相同。那么,如果物体的大小小于TH(类),TH(类)取决于目标类,我们称其为一个难检测的目标。反之为容易检测的目标。
如果物体时难检测的目标,我们会按比例缩放初始区域:
在这里插入图片描述
在这里插入图片描述
Speak©代表c类物体大小拥有最高准确检测比例时的大小,TH是一个门限,在实验中我们设定为3。
最终,我们将目标区域按顺序放入如图4所示的416
416的窗口,当窗口中全是物体时,我们运行YOLO_v3。注意,如果所有裁剪的区域都需要记录。这样我们在获得检测目标的边框坐标同时,可以获得目标在原始图像中的绝对位置。重复以上操作直至没有目标图片剩余。

实验和测评

我们使用来自两场球赛的真实数据进行测试。我们对比了只是用滑动窗口进行YOLOv3检测的算法和我们的方法的速度与准确率对比。另外,我们也测试了在去掉图片缩放后测试准确率的降低。

4.1实验细节

我们使用了在COCO数据集上预训练的YOLOv3模型,并使用了标准设置,如输入为416*416。检测门限设定为0.3,我们只检测优先的两类,包括人和球。使用一个NVIDIA 1080Ti GPU进行实验。

4.2实验进行

准确度对比:因为只检测两类,所以我们的检测误检很少。因此,本文的准确度主要关注与漏检。表一展示了球检测的准确度。然而,在缩放目标区域之后,准确率更接近基准。这个结果说明了调整对象大小是很有必要的。注意,基准并不是完美的。当物体过小时,基准中也有许多物体难以进行检测。我们也测试了直接缩放原始图片到416416大小的情况,检测率低至2.1%。
速度对比:这里速度值平均检测时间,并不包括加载和初始化YOLOv3模型的时间。平均处理时间在1080Ti上为25ms一帧。因此,处理所有的4个相机中的一帧需要25
4*(40962160)/(416416)= 5112ms时间,该方法的瓶颈来自于基准相机,需要花大约420秒。其他的三个只需花大约150ms即可。总而言之,我们把速度提高了9倍。注意,我们只获得了大约1.8fps的处理速度,距离实时处理还相距甚远。
大概这么多,其他的都没翻译,希望看论文过程中随手的翻译能帮到大家,谢谢~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值