CVPR2020-Reverse Perspective Network for Perspective-Aware Object Counting:透视感知目标计数的反向透视网络
Reverse Perspective Network for Perspective-Aware Object Counting
Abstract(摘要)
目标计数的关键挑战是任意角度引起的剧烈尺度变化。本文提出一个反向透视网络来解决输入图像尺度变化的问题,而不是生成透视图来平滑最终输出。反向透视网络能显示的评估透视失真并通过统一的扭曲输入图像校正失真。反向透视网络将具有相似实例尺度的图像发给回归器:因此回归器网络不需要多尺度接收域来匹配输入图像的多尺度。除此之外,为了进一步解决更拥挤区域的尺度问题,本文增大了拥挤区域的ground-truth值,然后强制回归器通过对抗式的过程从增大的ground-truth值中进行学习。为了验证该模型的有效性,本文收集了基于UAVs的车辆计数数据集。该数据集有剧烈的尺度变化。大量基于四个基准数据集的实验结果表明,本文提出的方法较当前流行的方法有明显提高。
1. Introduction(简介)
目标计数问题由于其广泛的应用范围在计算机视觉领域是一个热点问题,计数任务最关键的挑战就是尺度变化问题。大量的工作也已经研究了这一问题,现有的这些方法要么是利用检测框架,要么就是使用回归网络。
一些方法利用具有多尺度接收域的网络来适应输入图像的多尺度,这种方法明显的提高了由于学习隐式透视表征引起的计算成本。然而, Li 等人证明,多接收域会产生相似的结果,还有其它的方法利用透视图标准化最终的密度图以达到准确的提升。然而这种方法需要从额外的注释或密度图中以有监督的方式进行学习产生透视图,除此之外,生成的透视图噪声很大,因此,用这些透视图平滑最终输出会不可避免的产生噪声。
如图1所示,在原始图像中,由于角度不同造成了明显的尺度变化。由于网络在空间上共享卷积核,使得网络在适应连续尺度变化上具有挑战性。受到一种叫作反向透视绘画风格(这种绘画风格中,所有不同位置的对象都有相似的尺度)的影响,本文作者力求对输入图像进行转化以获得相似的实例尺度。在反向透视时,关键要保持图像本身结构避免引入新的变形。因此,作者对图像进行统一的转换。如图1所示,被扭转的图像具有相似的实例尺度。因此,与多分支方法不同,回归网络不需要不同的接收域来适应不同的尺度。因此降低了模型的复杂度。
在本文中作者提出了一个反向透视网络以一种无监督的方式减少输入图像的尺度变化。反向透视网络由两部分组成,透视估计其和坐标转换器。透视估计器首先会估计图像的透视程度来获得透视因子,然后,在透视因子的作用下,坐标转换器扭转输入图像来获得相似的实例尺度。转换后,我们利用一个单分支全连接网络来预测密度图。在训练回归器之前,我们会先预训练一个反向透视网络去学习校正透视失真。因为透视信息很难获得,作者提出了用一个目标函数以无监督的方式来优化反向透视网络。此外,反向透视网路是一个轻量级的网络并且很容易过拟合,作者将透视校正看作一个少镜头学习方法,通过原学习训练该网络。
反向透视网络在遇到拥挤人群区域时,仍然存在限制。为了进一步解决这一问题,作者提出用评估误差增大拥挤人群区域的ground-truth值,然后该提出框架能通过对抗式网络强制回归器从增大的密度图中学习。
为进一步验证该模型的有效性,本文收集了基于无人机的车辆计数数据集UAVs,名字叫做UAVVC。该数据集有剧烈的尺度变化。如图2所示,与已存在数据集比较,本文提出的数据集有明显的尺度变化,利于训练。
总结一下本文的贡献:
- 提出了一个反向透视网络,以无监督的方式减少输入图像尺度的变化。因此,我们有效地降低了回归网络网络的复杂性。
- 为了提高人口密集地区的估计精度,我们利用评价误差强化了ground-truth,并通过对抗性网络迫使回归器从ground-truth中学习。
- 为了验证该方法处理尺度变化的能力,我们收集了一个基于无人机的车辆计数数据集,该数据集具有较大的尺度变化。
2.Ralated work(相关工作)
2.1 Scale-Aware Approaches(尺度感知方法)
现有方法利用具有多接受域的网络解决尺度变化问题。(等等,列举了一些),还有一些方法利用接收块获得不同的接收域,这些算法会明显地增加学习隐式透视表征带来的计算成本,想要接收域自动地匹配相应的尺度。然而,有人证明,多接收域会产生相似的结果。除了改变卷积核,用一个深度网络也可以从他不同的各层中获得不同的接收域。许多计数的方法利用U-net相似的结构实现了可观的效果。还有很多方法利用多代理解决多尺度问题。(等等,列举了一些)。但这些方法跟连续尺度相比,具有有限尺度多样性。
本文,作者统一的对输入图像进行扭转,扭转的图像降低了模型的复杂性以及减少了训练回归器适应连续尺度的压力。
2.2 Perspective-Aware Approaches(透视感知方法)
许多方法也已经提出用透视信息解决尺度变化问题。(等等,列举了一些)。还有一些方法利用透视图对输出密度图进行标准化。(等等,列举了一些)。然而透视图很难获得。一些人用额外的标注产生透视图,或者从密度图产生透视图,但如图3所示,会产生大量噪音。因此用透视图平滑最终输出会不可避免地产生噪声。
与上述方法都不同的是,本文作者用无监督的方式估计透视失真,统一的校正失真以避免引入其他噪声。
3.Method(方法)
本文提出的框架如图4所示。
本文利用单分支回归器来估计人群数量,在回归之前,反向透视网络有效地减少了输入图像的尺度变化,因此,该提出网络减少了模型复杂性,降低了训练回归函数去适应连续尺度的压力。反向透视网络第一步估计输入图像的透视失真产生网格图用于采样。第二步对原始图像进行采样以减少尺度变化,然后回归器网络估计变换后图像的人群数量。反向透视网络在遇到拥挤人群区域时,仍然存在限制。为了进一步解决这一问题,作者提出用评估误差增大拥挤区域的ground-truth值,然后该提出框架能通过对抗式网络强制回归器从增大的密度图中学习。
3.1 Reverse Perspective network(反向透视网络)
如图4所示,反向透视网络由两部分组成,透视估计器和坐标转换器。这两部分都用无监督元学习进行端到端的训练。
一个关键之处是目标的信息被嵌入到分类网络中间的CNN特征中。相应的,作者通过预训练VGG-16网络中的前10个卷积层提取到的特征来评估空间容量。将特征表示为:
这里的ψ表示卷积层的参数,X是输入图片,C , W , H分别表示通道数、宽度和高度。
在训练时,反向透视网络转换提取到的特征来估计空间容量,在参考阶段,本文转换的是输入图像。
Perspective Estimation(