Geometry-constrained Car Recognition Using a 3D Perspective Network

 

Abstract

本文提出了一种从单RGB图片中进行车辆识别的先进学习框架。与现有利用attention机制定位有识别力的2D信息不同,本文的标准框架对2D全局特征与3Dbbox利用互相关与强化学习的方式进行联合表达学习。这两种特征表达通过先进的融合网络进行组合,网络进行车辆类型预测。全局2D特征通过常见的检测网络提取,2Dbbox估计帮助找到ROI。通过Roi的帮助,3DBbox与相应的特征通过3D透视网络(3DPN)利用几何校正的方式生成。3DPN网络由一个卷积神经网络(CNN)、消失点(vanishing point)loss与Roi透视层组成。CNN通过本文提出的消失点loss的引导回归3Dbbox,消失点loss提供了透视几何约束。得利于提出的Roi透视层,通过几何估计矫正了由于视角带来的变化,增强了特征的表达能力。我们提供了在BoxCar数据集上车辆分类与认证上定性与定量的结果。结果显示,通过学习如何从3Dbbox上提取特征,我们可以使用2D信息达取得相当甚至更好的效果。

1、Introduction

交通监控系统是智能交通重要的组成部分,已经在世界范围内广泛的应用到了交通调控与监控中。交通监控的关键是利用视觉信息识别与辨认车辆的能力。车辆识别给自动车辆型号分析赋能,对很多目标包括车辆调控,描述,引导都十分有效。

当前车辆识别算法共有的一个关键思想是使用从车辆部件中提取的局部组合成特征,这些局部特征可以使用部件标注或注意机制来定位。这些方法,利用部件标注,【9】【14】学习对应的部件检测器,汇总这些特征从而获得车辆的统一特征表达,从而进行特征分类。为了克服对部件标注的依赖,当前先进的方法【13,15,22,30,33】使用注意力机制来自动识别险种空间区域。尽管这些部件感知的方法成功的利用了空间信息,但是他们任然是建立在独立与2D视角上的。

3D感知的方法可以作为部件感知方法理想的替代方案。例如,【16,21】利用3DCAD模型校验或者2D图像校验可以显著消除视角变化产生的影响的事实,这被视为车辆类别识别主要的障碍之一。然而这样的方式具有通用性的限制,因为他们需要车辆的3DCAD模型。

为了解决这些问题,我们提出了直接利用3Dbbox来解决视角变化正则化问题。本文的工作总结如图1。本文的方法融合了3Dbbox表示与基于外观的2D车辆描述的好处。本文提出的方法有三个组成部分:全局网络(GN),3D透视网络(3D perspective network),特征融合网络(FFN)。GN网络从输入的RGB车辆图片中检测提取全局表现特征。3DPN利用消失点loss约束的几何约束预测3Dbbox。依靠预测的3Dbbox的帮助,3DPN进一步利用提出的ROI透视pooling层产生视角矫正特征表达,以几何校验的方式提取3D数据。最后,有GN与3DPN提取的特征通过FFN合并,用于车辆识别。我们的贡献可以总结如下:

  1. 提出了一个充分利用2D与3D表达的车辆识别通用网络架构。据我们所知,他们的方法是第一个从3Dbbox中提取有效特征表达用于车辆识别的。
  2. 提出了一个3Dbbox预测器,3DPN。使得车辆识别可以在不需要3D CAD模型的情况下有效正确的使用3D信息。
  3. 我们提出了一个新的CNN pooling层称为ROI Perspctive pooling,保证了利用3Dbbox在特征空间归一化车辆多视角特征,保证CNN自适应变化建模能力。
  4. 我们引入了几何特征可解释loss(vanishing point loss)进行优雅稳定的3Dbbox预测,改进回归的准确率。

我们在BoxCars数据集benchmark的车辆分类与认证任务上进行评估,结果显示不使用3D标注的情况下我们仅仅利用2D信息取得了比SOTA方法更好的效果。

2、Related Work

本文回顾了之前在车辆识别,立体检测,RoI pooling这三个与我们论文相关领域的工作。

车辆分类:由于我们的模型仅利用单幅样本识别车辆,所以使用例如3D CAD模型这样的额外信息的方法就不做回顾了。2D车辆识别可以分为两类:部件标注(PA)与注意力机制(AM)方法。PA的方法【9,14,25】可以通过检测部件提取本地特征表达,从而获得高光的表现,这种方法依赖部件标注。这种劳动密集型的方法当应用到显示场景的时候是不可行的。文献【9】分别检测每个车辆部件,使用HOG特征产生一个统一的特征。文献【14】通过结合提前标注的局部与全局特征训练一个CNN分类器。类似的,文献【25】使用事先标注的3Dbbox生成一个2D的flat表达特征。为了降低对事先标注的需求,AM方法【5,13,28,32】近些年来进行进一步的研究。他们的一个共有特征是利用注意力机制自动定位车辆的不同部件。文献【13】试图利用仿射变换将整个车映射到最优辨识度的视角上。文献【5,28,32】在不使用投影变换的前提下生成本地特征,进行识别。

与之前的方法不同,我们进一步利用车辆的2D与3D特征表达。与PA与AM的方式相比,我们的方法可以同时预测2D与3Dbbox。这种方法可以通过几何学可解释的几何约束来产生视角正则化的特征。据我们所知,我们是第一个将3Dbbox用于特征表达的,这种方式增强了识别的表现。此外,与其它3D感知的方法相比,我们的方法不用3D CAD模型,现实中这种模型很难获取。

立体检测:可以观察到顶点检测通常可以帮助提升立体检测的效果。文献【7,12,18,29】通过角点检测器定位顶点,通过顶点的几何特征重建立体形状。沿着这些成功应用的基于几何特征的方法,文献【4】通过基于Faster-RCNN的模型回归出几何体的顶点。之后,顶点预测利用消失点进行优化【8】。然而,这个优化的步骤与网络的训练阶段是分开的,从不准确的预测中计算的消失点通常会带来重大的误差。与文献【4】不同,我们使用预测的VP来在训练阶段约束8个顶点。这样使得我们的模型不需要对顶点进行后精确矫正。

RoI Pooling:例如RoIAlign【10】与RoIWarp【3】这样的RoI Pooling层已经广泛应用在从矩形RoI区域获取固定尺寸特征上。然而,将他们应用在四边形感兴趣区域的效果是不确定的。例如,从一个四边形RoI的二维边界框中提取特征,由于形状不规则,结果在表示中包含了不相关的区域。这种情况经常在利用透视变换将矩形区域投影到图像平面时发生。为了解决这个问题,我们提出了RoI Perspective(RoIPers)pooling来从由于透视变换产生的四边形区域中提取高效且有效的固定尺寸特征。这个方法的一个关键贡献是RoIPers学会了利用透视变换从源目标抽取响应的特征。

3、Methodology

Overview:我们的目标是设计一个网络结构联合提取车辆识别中的2D与3D特征表达。提出的模型由三个子模块组成(见图2):

1、Global Network。全局网络时一个2D检测网络,目标是产生2D纹理信息的全局特征表示,定位出包含车辆的感兴趣区域(RoI)。

2、3D Perspective Network。3D透视网络包含两个特别任务组件,3Dbbox回归与3D透视特征抽取,利用RoIPerspective层获取特征空间中正则化的车辆视角。

3、Feature Fusion Network。特征融合网络利用多模态线性池化(MCB)【6】结合2D全局与3D透视特征,预测检测车辆的类别。

3.1、Global Netwo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值