(CVPR 2017)Multi-View 3D Object Detection Network for Autonomous Driving

摘要

本文针对自动驾驶场景中的高精度3D目标检测。我们提出了多视图3D网络(MV3D),这是一种传感融合框架,将LIDAR点云和RGB图像作为输入并预测定向的3D边界框。我们使用紧凑的多视图表示对稀疏3D点云进行编码。该网络由两个子网络组成:一个用于3D目标proposal生成,另一个用于多视图特征融合。proposal网络从3D点云的鸟瞰图表示有效地生成 3D候选框。我们设计了一个深度融合方案来组合来自多个视图的区域特征,并实现不同路径的中间层之间的交互。在具有挑战性的KITTI基准上进行的实验表明,我们的方法在3D定位和3D检测任务上的性能优于现有技术约25%和30%AP。此外,对于2D检测,我们的方法在基于LIDAR的方法中的难样本上获得的AP比现有技术高10.3%。

1.简介

3D目标检测在自动驾驶汽车的视觉感知系统中发挥着重要作用。现代自动驾驶汽车通常配备多个传感器,例如激光雷达和摄像头。激光扫描仪具有准确深度信息的优势,而相机保留更详细的语义信息。 LIDAR点云与RGB图像的融合应该能够实现更高的性能和对自动驾驶汽车的安全性。

本文的重点是利用激光雷达和图像数据进行3D目标检测。我们的目标是对道路场景中的物体进行高精度的3D定位和识别。最近基于激光雷达的方法将3D窗口放置在3D体素网格中,以对点云进行评分[26,7],或者在密集框预测方案中对前视点地图应用卷积网络[17]。基于图像的方法[4, 3]通常首先生成3D框proposal,然后使用Fast RCNN[10]pipeline执行基于区域的识别。基于LIDAR点云的方法通常可以实现更准确的 3D 位置,而基于图像的方法在2D框评估方面具有更高的准确度。 [11, 8]通过采用早期或晚期融合方案将激光雷达和图像结合起来进行2D检测。然而,对于更具挑战性的3D目标检测任务,需要精心设计的模型来利用多种模式的优势。

在本文中,我们提出了一种多视图3D目标检测网络(MV3D),它以多模态数据作为输入,并预测3D空间中目标的完整3D范围。利用多模态信息的主要思想是进行基于区域的特征融合。我们首先提出了一种多视图编码方案,以获得稀疏3D点云的紧凑且有效的表示。如图1所示,多视图3D检测网络由两部分组成:3D Proposal网络和基于区域的融合网络。3D proposal网络利用点云的鸟瞰图表示来生成高度准确的3D候选框。3D目标proposal的好处是它可以投影到3D空间中的任何视图。多视图融合网络通过将3D proposal投影到来自多个视图的特征图来提取区域特征。我们设计了一种深度融合方法,以实现来自不同视图的中间层的交互。结合drop-path训练[15]和auxiliary损失,我们的方法显示出优于早/晚融合方案的卓越性能。给定多视图特征表示,网络执行定向3D框回归,预测3D空间中目标的准确3D位置、大小和方向。

我们在具有挑战性的KITTI[9]目标检测基准上评估了我们的3D proposal生成、3D定位、3D检测和2D检测的方法。实验表明,我们的3D proposal明显优于最近的3D proposal方法3DOP[4]和Mono3D[3]。特别地,在只有300个proposal的情况下,我们在交集/并集(IoU)阈值为0.25和0.5时分别获得了99.1%和91%的3D召回率。我们方法的基于激光雷达的变体在3D定位任务中实现了大约25%的准确度,在3D目标检测任务中实现了30%的3D平均精度(AP)。在KITTI的hard test set上进行2D检测,它的性能也比所有其他基于LIDAR的方法高出10.3%。当与图像相结合时,基于激光雷达的结果得到了进一步的改进。

2.相关工作

我们简要回顾了从点云和图像、多模态融合方法和3D目标proposal中进行3D目标检测的现有工作。

点云中的3D目标检测。 大多数现有方法使用体素网格表示对3D点云进行编码。滑动形状[22]和Vote3D[26]在用几何特征编码的3D网格上应用SVM分类器。最近提出的一些方法[23, 7, 16]通过3D卷积网络改进了特征表示,但是这需要昂贵的计算。除了3D体素表示,VeloFCN[17]将点云投影到前视图,获得2D点图。他们在2D点图上应用全卷积网络,并从卷积特征图密集预测3D框。[24,18,12]研究用于3D目标分类的点云的体积和多视图表示。在这项工作中,我们使用多视图特征图对3D点云进行编码,从而为多模式融合启用基于区域的表示。

图像中的3D目标检测。 3DVP[28]引入了3D体素模式并采用一组ACF检测器进行2D检测和3D姿态估计。3DOP[4]从立体图像重建深度,并使用能量最小化方法生成3D框proposals,这些proposals被输入到R-CNN[10]pipeline以进目标识别。虽然Mono3D[3]与3DOP共享相同的pipeline,但它从单目图像生成3D proposals。 [31, 32]使用3D线框模型介绍了目标的几何表示。为了结合时间信息,一些工作[6, 21]将运动和地面估计的结构结合起来,将2D 检测框提升到3D边界框。基于图像的方法通常依赖于准确的深度估计或地标检测。我们的工作展示了如何结合激光雷达点云来改进3D定位。

多模态融合 只有少数工作在自动驾驶的背景下利用多种形式的数据。[11]结合图像、深度和光流,使用混合专家(mixture-of-experts)框架进行2D行人检测。[8]在早期阶段融合RGB和深度图像,并训练用于2D检测的基于姿态的分类器。在本文中,我们设计了一种受FractalNet[15]和Deeply-Fused Net[27]启发的深度融合方法。在FractalNet中,一个基本模块被迭代重复,以构建一个具有指数增长路径的网络。类似地,[27]通过结合浅子网和深子网构建深度融合网络。我们的网络与它们不同,对每列使用相同的基础网络,并添加辅助路径和损失进行正则化。


图1:多视图3D目标检测网络(MV3D):该网络以LIDAR点云的鸟瞰图和前视图以及图像作为输入。它首先从鸟瞰图生成3D目标proposals,并将它们投影到三个视图。深度融合网络用于组合通过ROI池化获得的每个视图的区域特征。融合特征用于联合预测目标类别并进行定向3D框回归。

3D目标Proposals 与2D目标proposals[25, 33, 2]类似,3D目标proposal方法生成一小组3D候选框,以覆盖3D空间中的大部分目标。为此,3DOP[4]在立体点云中设计了一些深度特征来对大量3D候选框进行评分。 Mono3D[3]利用地平面先验并利用一些分割特征从单个图像生成3D proposals。 3DOP和Mono3D都使用手工制作的功能。 Deep Sliding Shapes[23]利用了更强大的深度学习功能。然而,它在3D体素网格上运行,并使用计算量大的3D卷积。我们通过引入点云的鸟瞰图表示并使用2D卷积来生成准确的3D proposals.,提出了一种更有效的方法。

3.MV3D网络

MV3D网络将3D点云的多视图表示和图像作为输入。它首先从鸟瞰图生成3D目标proposals,并通过基于区域的表示深度融合多视图特征。融合特征用于类别分类和定向3D框回归。

3.1.3D点云表示

现有工作通常将3D LIDAR点云编码为3D网格[26, 7]或前视图[17]。虽然3D网格表示保留了点云的大部分原始信息,但它通常需要更复杂的计算来进行后续特征提取。我们通过将3D点云投影到鸟瞰图和前视图来提出更紧凑的表示。图2 可视化了点云表示。


图2:MV3D网络的输入特征。

鸟瞰图表示。 鸟瞰图表示由高度、强度和密度编码。我们将投影点云离散化为分辨率为0.1m的二维网格。对于每个单元格,高度特征被计算为单元格中点的最大高度。为了编码更详细的高度信息,点云被平均分为 M M M个切片。为每个切片计算一个高度图,因此我们获得 M M M个高度图。强度特征是每个单元格中具有最大高度的点的反射率值。点云密度表示每个单元格中的点数。为了标准化特征,它被计算为 min ⁡ ( 1.0 , log ⁡ ( N + 1 ) log ⁡ ( 64 ) ) \min \left(1.0, \frac{\log (N+1)}{\log (64)}\right) min(1.0,log(64)log(N+1)),其中 N N N是单元格中的点数。请注意,强度和密度特征是针对整个点云计算的,而高度特征是针对 M M M个切片计算的,因此总体而言,鸟瞰图被编码为 ( M + 2 ) (M +2) (M+2)通道特征。

前视图表示。 前视图表示为鸟瞰图表示提供了补充信息。由于激光雷达点云非常稀疏,将其投影到图像平面会产生稀疏的2D点图。相反,我们将其投影到圆柱平面以生成密集的前视图,如[17]中所示。给定一个3D点 p = ( x , y , z ) p=(x, y, z) p=(x,y,z),它在前视图中的坐标 p f v = ( r , c ) p_{f v}=(r, c) pfv=(r,c)可以使用
c = ⌊ atan ⁡ 2 ( y , x ) / Δ θ ] ⌋ r = ⌊ atan ⁡ 2 ( z , x 2 + y 2 ) / Δ ϕ ⌋ ( 1 ) \begin{aligned} c &=\lfloor\operatorname{atan} 2(y, x) / \Delta \theta]\rfloor \\ r &=\left\lfloor\operatorname{atan} 2\left(z, \sqrt{x^{2}+y^{2}}\right) / \Delta \phi\right\rfloor \end{aligned} \quad\quad \quad\quad(1) cr=atan2(y,x)θ]⌋=atan2(z,x2+y2 )ϕ(1)
其中 Δ θ \Delta \theta Δθ Δ ϕ \Delta \phi Δϕ分别是激光束的水平和垂直分辨率。我们用三通道特征对前视图进行编码,这些特征是高度、距离和强度,如图2所示。

3.2.3D Proposal网络

受区域Proposal网络(RPN)的启发,RPN已成为最先进的2D目标检测器[19]的关键组成部分,我们首先设计了一个网络来生成3D目标proposals。我们使用鸟瞰图作为输入。在3D目标检测中,鸟瞰图相对于前视图/图像平面有几个优点。首先,物体在投影到鸟瞰图时会保持物理尺寸,因此尺寸变化很小,而在前视图/图像平面中则不然。其次,鸟瞰中的物体占据不同的空间,从而避免了遮挡问题。第三,在道路场景中,由于物体通常位于地平面上并且垂直位置变化很小,因此鸟瞰位置对于获得准确的3D边界框更为关键。因此,使用明确的鸟瞰图作为输入使得3D位置预测更加可行。

给定一张鸟瞰图。网络从一组3D先验框生成3D框proposals。每个3D框由 ( x , y , z , l , w , h ) (x, y, z, l, w, h) (x,y,z,l,w,h)参数化,它们是激光雷达坐标系中3D框的中心和大小(以米为单位)。对于每个3D先验框,可以通过离散化 ( x , y , l , w ) (x, y, l, w) (x,y,l,w)得到对应的鸟瞰图anchor ( x b v , y b v , l b v , w b v ) \left(x_{b v}, y_{b v}, l_{b v}, w_{b v}\right) (xbv,ybv,lbv,wbv)。我们通过在训练集中对ground truth目标大小进行聚类来设计N个3D先验框。在汽车检测的情况下,先验框的 ( l , w ) (l, w) (l,w)取{(3.9, 1.6), (1.0, 0.6)}中的值,高度 h h h设置为1.56m。通过将鸟瞰图anchors旋转90度,我们得到 N = 4 N = 4 N=4个先验框。 ( x , y ) (x, y) (x,y)是鸟瞰图特征图中的变化位置, z z z可以根据相机高度和物体高度计算。我们在proposal生成中不进行方向回归,而将其留给下一个预测阶段。 3D框的方向被限制在{0°, 90°},这接近于大多数道路场景对象的实际方向。这种简化使proposal回归的训练更容易。


图3:不同融合方案的架构:我们在早期/晚期融合中使用连接操作实例化连接节点,并使用逐元素均值操作来实例化深度融合。

在0.1m的离散化分辨率下,鸟瞰图中的目标框仅占用5∼40个像素。检测这种超小的目标对于深度网络来说仍然是一个难题。一种可能的解决方案是使用更高分辨率的输入,然而,这将需要更多的计算。我们选择[1]中的特征图上采样。我们在proposal网络中的最后一个卷积层之后使用2x双线性上采样。在我们的实现中,前端卷积只进行三个池化操作,即8倍下采样。因此,结合2x反卷积,输入到proposal网络的特征图相对于鸟瞰图输入进行了4x下采样。

我们通过回归到 t = ( Δ x , Δ y , Δ z , Δ l , Δ w , Δ h ) \mathbf{t}=(\Delta x, \Delta y, \Delta z, \Delta l, \Delta w, \Delta h) t=(Δx,Δy,Δz,Δl,Δw,Δh)来进行3D框回归,类似于RPN[19]。 ( Δ x , Δ y , Δ z ) (\Delta x, \Delta y, \Delta z) (Δx,Δy,Δz)是由anchor大小归一化的中心偏移量, ( Δ l , Δ w , Δ h ) (\Delta l, \Delta w, \Delta h) (Δl,Δw,Δh)计算为 Δ s = log ⁡ s G T s anchor  , s ∈ { l , w , h } \Delta s=\log \frac{s_{\mathrm{GT}}}{s_{\text {anchor }}}, s \in\{l, w, h\} Δs=logsanchor sGT,s{l,w,h}。我们使用多任务损失来同时对目标/背景进行分类并进行3D框回归。特别是,我们对“objectness”损失使用class-entropy,对3D框回归损失使用Smooth ℓ 1 \ell_{1} 1[10]。计算框回归损失时忽略背景anchors。在训练期间,我们计算anchors和ground truth鸟瞰图框之间的IoU重叠。如果一个anchor的重叠度高于 0.7,则认为anchor为正,如果重叠度低于0.5,则认为anchor为负。中间有重叠的锚点会被忽略。


图4:基于区域的融合网络的训练策略:在训练期间,添加底部的三个路径和损失以对网络进行正则化。辅助(auxiliary)层与主网络中的相应层共享权重。

由于LIDAR点云是稀疏的,这会导致许多空anchors,因此我们在训练和测试期间移除所有空anchors以减少计算量。这可以通过计算点占用图上的积分图像来实现。

对于最后一个卷积特征图的每个位置的每个非空anchor,网络生成一个3D框。为了减少冗余,我们在鸟瞰框上应用非最大抑制(NMS)。与[23]不同,我们没有使用3D NMS,因为物体应该在地平面上占据不同的空间。我们对NMS使用0.7的IoU阈值。训练时保留前2000个框,而在测试中,我们只使用300个框。

3.3.基于区域的融合网络

我们设计了一个基于区域的融合网络,以有效地组合来自多个视图的特征,共同对目标proposals进行分类,并进行定向3D框回归。

多视图ROI池化。由于来自不同视图/模态的特征通常具有不同的分辨率,我们对每个视图使用ROI池化[10]以获得相同长度的特征向量。鉴于生成的3D proposals,我们可以将它们投影到3D空间中的任何视图。在我们的例子中,我们将它们投影到三个视图,即鸟瞰图(BV)、前视图(FV)和图像平面(RGB)。给定一个 3D proposals p 3 D p_{3 \mathrm{D}} p3D,我们通过以下方式获得每个视图的ROI:

R O I v = T 3 D → v ( p 3 D ) , v ∈ { B V , F V , R G B } ( 2 ) \mathrm{ROI}_{v}=\mathbf{T}_{3 \mathrm{D} \rightarrow v}\left(p_{3 \mathrm{D}}\right), v \in\{\mathrm{BV}, \mathrm{FV}, \mathrm{RGB}\} \quad\quad \quad\quad(2) ROIv=T3Dv(p3D),v{BV,FV,RGB}(2)

其中 T 3 D → v \mathbf{T}_{3 \mathrm{D} \rightarrow v} T3Dv分别表示从LIDAR坐标系到鸟瞰图、前视图和图像平面的转换函数。给定来自每个视图的前端网络的输入特征图 x x x,我们通过ROI池化获得固定长度的特征 f v f_{v} fv

f v = R ( x , R O I v ) , v ∈ { B V , F V , R G B } ( 3 ) f_{v}=\mathbf{R}\left(x, \mathrm{ROI}_{v}\right), v \in\{\mathrm{BV}, \mathrm{FV}, \mathrm{RGB}\} \quad\quad \quad\quad\quad\quad(3) fv=R(x,ROIv),v{BV,FV,RGB}(3)

深度融合。 为了结合来自不同特征的信息,先前的工作通常使用早融合[1]或晚融合[23, 13]。受[15, 27]的启发,我们采用深度融合方法,分层融合多视图特征。我们的深度融合网络和早/期融合网络的架构比较如图3所示。对于具有 L L L层的网络,早融合在输入阶段结合了来自多个视图的特征{ f v f_{v} fv}:

f L = H L ( H L − 1 ( ⋯ H 1 ( f B V ⊕ f F V ⊕ f R G B ) ) ) ( 4 ) f_{L}=\mathbf{H}_{L}\left(\mathbf{H}_{L-1}\left(\cdots \mathbf{H}_{1}\left(f_{B V} \oplus f_{F V} \oplus f_{R G B}\right)\right)\right) \quad\quad \quad(4) fL=HL(HL1(H1(fBVfFVfRGB)))(4)

{ H l , l = 1 , ⋯   , L } \left\{\mathbf{H}_{l}, l=1, \cdots, L\right\} {Hl,l=1,,L}是特征变换函数,⊕是连接操作(例如,连接、求和)。相比之下,晚融合使用单独的子网络来独立学习特征变换,并在预测阶段组合它们的输出:

f L = ( H L B V ( ⋯ H 1 B V ( f B V ) ) ) ⊕ ( H L F V ( ⋯ H 1 F V ( f F V ) ) ) ⊕ ( H L R G B ( ⋯ H 1 R G B ( f R G B ) ) ) ( 5 ) \begin{aligned} f_{L}=&\left(\mathbf{H}_{L}^{B V}\left(\cdots \mathbf{H}_{1}^{B V}\left(f_{B V}\right)\right)\right) \oplus \\ &\left(\mathbf{H}_{L}^{F V}\left(\cdots \mathbf{H}_{1}^{F V}\left(f_{F V}\right)\right)\right) \oplus \\ &\left(\mathbf{H}_{L}^{R G B}\left(\cdots \mathbf{H}_{1}^{R G B}\left(f_{R G B}\right)\right)\right) \end{aligned} \quad\quad \quad\quad\quad\quad\quad\quad\quad (5) fL=(HLBV(H1BV(fBV)))(HLFV(H1FV(fFV)))(HLRGB(H1RGB(fRGB)))(5)

为了使来自不同视图的中间层的特征之间有更多的交互,我们设计了以下深度融合过程:

f 0 = f B V ⊕ f F V ⊕ f R G B f l = H l B V ( f l − 1 ) ⊕ H l F V ( f l − 1 ) ⊕ H l R G B ( f l − 1 ) , ∀ l = 1 , ⋯   , L ( 6 ) \begin{aligned} f_{0}=& f_{B V} \oplus f_{F V} \oplus f_{R G B} \\ f_{l}=& \mathbf{H}_{l}^{B V}\left(f_{l-1}\right) \oplus \mathbf{H}_{l}^{F V}\left(f_{l-1}\right) \oplus \mathbf{H}_{l}^{R G B}\left(f_{l-1}\right), \\ & \forall l=1, \cdots, L \end{aligned} \quad\quad\quad\quad(6) f0=fl=fBVfFVfRGBHlBV(fl1)HlFV(fl1)HlRGB(fl1),l=1,,L(6)
我们使用逐元素均值进行深度融合的连接操作,因为它与droppath训练结合使用时更加灵活[15]。

定向3D框回归 鉴于多视图网络的融合特征,我们从3D proposals回归到有向3D框。特别是,回归目标是3D框的 8 个角: t = ( Δ x 0 , ⋯   , Δ x 7 , Δ y 0 , ⋯   , Δ y 7 , Δ z 0 , ⋯   , Δ z 7 ) \mathbf{t}= \left(\Delta x_{0}, \cdots, \Delta x_{7}, \Delta y_{0}, \cdots, \Delta y_{7}, \Delta z_{0}, \cdots, \Delta z_{7}\right) t=(Δx0,,Δx7,Δy0,,Δy7,Δz0,,Δz7)。它们被编码为由proposal框的对角线长度归一化的角偏移量。尽管这样的24维向量表示在表示有方向的3D框时是多余的,但我们发现这种编码方法比中心和大小编码方法效果更好。请注意,我们的3D框回归不同于[23],后者回归到轴对齐的3D框。在我们的模型中,可以从预测的3D框角来计算目标的方向。我们使用多任务损失来联合预测目标类别和定向3D框。与proposal network一样,类别损失使用交叉熵,3D框损失使用smooth ℓ 1 \ell_{1} 1。在训练过程中,正/负ROI是根据鸟瞰图框的IoU重叠确定的。如果鸟瞰图IoU重叠大于0.5,则认为3D proposal是正的,否则认为是负的。在推理过程中,我们在3D边界框回归后对3D框应用NMS。我们将3D框投影到鸟瞰图以计算它们的IoU重叠。我们使用0.05的IoU阈值来去除多余的框,这样可以确保目标在鸟瞰图中不会占据相同的空间。

网络正则化 我们采用两种方法来规范基于区域的融合网络:drop-path training[15]和辅助(auxiliary)损失。对于每次迭代,我们随机选择做全局drop-path或局部drop-path,概率为50%。如果选择全局drop-path,我们以相等的概率从三个视图中选择一个视图。如果选择局部drop-path,则输入到每个连接节点的路径以50%的概率随机丢弃。我们确保为每个连接节点保留至少一个输入路径。为了进一步加强每个视图的表示能力,我们在网络中添加了辅助(auxiliary)路径和损失。如图4所示,辅助(auxiliary)路径与主网络具有相同的层数。辅助(auxiliary)路径中的每一层与主网络中的相应层共享权重。我们使用相同的多任务损失,即分类损失加上3D框回归损失,来反向传播每个辅助(auxiliary)路径。我们对包括辅助(auxiliary)损失在内的所有损失进行平均加权。辅助(auxiliary)路径在推理过程中被移除。

3.4.Implementation

网络架构。在我们的多视图网络中,每个视图都具有相同的架构。基础网络建立在16层VGG网络[20]之上,并进行了以下修改:

  • 通道减少到原始网络的一半。
  • 为了处理超小目标,我们使用特征近似来获得高分辨率特征图。特别是,我们在将最后一个卷积特征图输入到3D Proposal网络之前插入一个2x双线性上采样层。同样,我们在BV/FV/RGB分支的ROI池化层之前插入一个4x/4x/2x上采样层。
  • 我们移除了原始VGG网络中的第4次池化操作,因此我们网络的卷积部分进行了8倍的下采样。
  • 在多视图融合网络中,我们在原来的 f c 6 fc6 fc6 f c 7 fc7 fc7之外增加了一个额外的全连接层 f c 8 fc8 fc8

我们通过对ImageNet上预训练的VGG-16网络的权重进行采样来初始化参数。尽管我们的网络有三个分支,但参数数量约为VGG-16网络的75%。在GeForce Titan X GPU上,一张图像的网络推理时间约为0.36秒。

输入表示。 在KITTI的情况下,它只为前视图(大约90°视野)中的目标提供注释,我们使用[0, 70.4] × [-40, 40]米范围内的点云。当投影到图像平面时,我们还删除了图像边界之外的点。对于鸟瞰图,离散化分辨率设置为0.1m,因此鸟瞰图输入的大小为704×800。由于KITTI使用64束Velodyne激光扫描仪,我们可以获得64×512的前视点图。RGB图像被放大,最短尺寸为500。

训练。 该网络以端到端的方式进行训练。对于每个小批量,我们使用1张图像并采样128个ROI,大致保持25%的ROI为正。我们使用SGD训练网络,学习率为0.001,迭代次数为100K。然后我们将学习率降低到0.0001并再训练20K次迭代。

原文链接:https://arxiv.org/abs/1611.07759

References

[1] Z. Cai, Q. Fan, R. Feris, and N. V asconcelos. A unified multi-scale deep convolutional neural network for fast object detection. In ECCV, 2016. 4, 5, 7

[2] J. Carreira and C. Sminchisescu. Cpmc: Automatic object segmentation using constrained parametric min-cuts. PAMI, 34(7):1312–1328, 2012. 3

[3] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urtasun. Monocular 3d object detection for autonomous driving. In CVPR, 2016. 1, 2, 3, 6, 7

[4] X. Chen, K. Kundu, Y . Zhu, A. Berneshawi, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals for accurate object class detection. In NIPS, 2015. 1, 2, 3, 6, 7, 8

[5] X. Chen, K. Kundu, Y . Zhu, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals using stereo imagery for accurate object class detection. In PAMI, 2017. 6

[6] V . Dhiman, Q. H. Tran, J. J. Corso, and M. Chandraker. A continuous occlusion model for road scene understanding. In CVPR, pages 4331–4339, 2016. 2

[7] M. Engelcke, D. Rao, D. Zeng Wang, C. Hay Tong, and I. Posner. V ote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks. arXiv:1609.06666, 2016. 1, 2, 3, 7

[8] M. Enzweiler and D. M. Gavrila. A multilevel mixture-ofexperts framework for pedestrian classification. IEEE Transactions on Image Processing, 20(10):2967–2979, 2011. 1, 2

[9] A. Geiger, P . Lenz, and R. Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In CVPR, 2012. 1, 6, 8

[10] R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 4

[11] A. Gonzalez, D. V azquez, A. Lopez, and J. Amores. Onboard object detection: Multicue, multimodal, and multiview random forest of local experts. In IEEE Transactions on Cybernetics, 2016. 1, 2

[12] V . Hegde and R. Zadeh. Fusionnet: 3d object classification using multiple data representations. CoRR, abs/1607.05695, 2016. 2

[13] J. Hoffman, S. Gupta, and T. Darrell. Learning with side information through modality hallucination. In CVPR, 2016. 5

[14] J. Hosang, R. Benenson, P . Dollár, and B. Schiele. What makes for effective detection proposals? PAMI, 2015. 6

[15] G. Larsson, M. Maire, and G. Shakhnarovich. Fractalnet: Ultra-deep neural networks without residuals. arXiv:1605.07648, 2016. 1, 2, 5

[16] B. Li. 3d fully convolutional network for vehicle detection in point cloud. IROS, 2017. 2, 7, 8

[17] B. Li, T. Zhang, and T. Xia. V ehicle detection from 3d lidar using fully convolutional network. In Robotics: Science and Systems, 2016. 1, 2, 3, 6, 7, 8

[18] C. R. Qi, M. N. H. Su, A. Dai, M. Yan, and L.Guibas. V olumetric and multi-view cnns for object classification on 3d data. In CVPR, 2016. 2

[19] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 3, 4, 7

[20] K. Simonyan and A. Zisserman. V ery deep convolutional networks for large-scale image recognition. In arXiv:1409.1556, 2014. 6

[21] S. Song and M. Chandraker. Joint sfm and detection cues for monocular 3d localization in road scenes. In Computer Vision and Pattern Recognition, pages 3734–3742, 2015. 2 [22] S. Song and J. Xiao. Sliding shapes for 3d object detection in depth images. In ECCV. 2014. 2

[23] S. Song and J. Xiao. Deep sliding shapes for amodal 3d object detection in rgb-d images. In CVPR, 2016. 2, 3, 4, 5

[24] H. Su, S.Maji, E.Kalogerakis, and E. Learned-Miller. Multiview convolutional neural networks for 3d shape recognition. In ICCV, 2015. 2

[25] K. V an de Sande, J. Uijlings, T. Gevers, and A. Smeulders. Segmentation as selective search for object recognition. In ICCV, 2011. 3

[26] D. Z. Wang and I. Posner. V oting for voting in online point cloud object detection. In Proceedings of Robotics: Science and Systems, 2015. 1, 2, 3, 7

[27] J. Wang, Z. Wei, T. Zhang, and W. Zeng. Deeply-fused nets. arXiv:1605.07716, 2016. 2, 5

[28] Y . Xiang, W. Choi, Y . Lin, and S. Savarese. Data-driven 3d voxel patterns for object category recognition. In CVPR, 2015. 2

[29] Y . Xiang, W. Choi, Y . Lin, and S. Savarese. Subcategoryaware convolutional neural networks for object proposals and detection. In arXiv:1604.04693. 2016. 7

[30] F. Yang, W. Choi, and Y . Lin. Exploit all the layers: Fast and accurate cnn object detector with scale dependent pooling and cascaded rejection classifiers. In CVPR, 2016. 7

[31] M. Z. Zia, M. Stark, B. Schiele, and K. Schindler. Detailed 3d representations for object recognition and modeling. PAMI, 2013. 2

[32] M. Z. Zia, M. Stark, and K. Schindler. Are cars just 3d boxes? jointly estimating the 3d shape of multiple objects. In CVPR, pages 3678–3685, 2014. 2

[33] L. Zitnick and P . Dollár. Edge boxes: Locating object proposals from edges. In ECCV. 2014. 3

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

fish小余儿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值