摘要
- 目的:实现自动驾驶场景中的高精度 3D 物体检测;
- 贡献:提出了多视图 3D 网络 (Multi-View 3D Networks, MV3D),这是一种将 LIDAR 点云和 RGB 图像作为输入并预测定向 3D 边界框的感官融合框架。(注:提出了一种框架,预测结果是含有车辆行驶方向的3D边界框)
- 方法:使用紧凑的多视图表示对稀疏 3D 点云进行编码。
- 细节:该网络由两个子网络组成:一个用于 3D 对象提议生成(Proposal),提议网络从 3D 点云的鸟瞰图(BEV)表示中有效地生成 3D 候选框。另一个用于多视图特征融合(Feature-fusion)。
- 结果:在具有挑战性的 KITTI 基准测试中进行的实验表明,我们的方法在 3D 定位和 3D 检测任务上比最先进的方法高出约 25% 和 30% AP(两个任务:定位和检测)。此外,对于 2D 检测,我们的方法比在基于激光雷达的方法中获得的 AP的最新技术高 14.9%(2D检测只和纯激光雷达的进行了对比)。
Introduction
- 本文的重点是利用激光雷达和图像数据进行 3D 对象检测。我们的目标是对道路场景中的物体进行高精度 3D 定位和识别。
- 多视图 3D 检测网络由两部分组成:3D 建议网络和基于区域的融合网络。 3D 提案网络利用点云的鸟瞰图表示来生成高精度的 3D 候选框。 3D object proposals 的好处是它可以投影到 3D 空间中的任何视图。多视图融合网络通过将 3D object proposals投影到多视图的特征图来提取区域特征。我们设计了一种深度融合方法,以实现来自不同视图的中间层的交互。结合下降路径训练和辅助损失,我们的方法显示出优于早期/晚期融合方案的性能。给定多视图特征表示,网络执行定向 3D 框回归,预测 3D 空间中对象的准确 3D 位置、大小和方向。
MV3D
MV3D 网络将 3D 点云和图像的多视图表示作为输入。它首先从LIDAR的鸟瞰图生成 3D 对象建议,并通过基于区域的表示深度融合多视图特征。融合的特征用于类别分类和定向 3D 框回归。
3D点云表示
- 现有工作通常将 3D LIDAR 点云编码为 3D 网格(Grid)或前视图(Front View map)。虽然 3D 网格表示保留了点云的大部分原始信息,但通常需要更复杂的计算来进行后续的特征提取。我们通过将 3D 点云投影到鸟瞰图和前视图来提出更紧凑的表示。
- 鸟瞰图表示。鸟瞰图表示由高度、强度和密度编码。
- 我们将投影点云离散化为分辨率为 0.1m 的二维网格。对于每个单元格:
- 高度特征被计算为单元格中点的最大高度。为了编码更详细的高度信息,将点云平均分为 M 个切片。为每个切片计算高度图,就获得 M 个高度图。
- 强度特征是每个单元格中具有最大高度的点的反射率值。
- 点云密度表示每个单元格中的点数。为了规范化特征,它的计算公式为
m i n ( 1.0 , l o g ( N + 1 ) l o g ( 64 ) ) min\left(1.0,\frac{log(N+1)}{log(64)}\right) min(1.0,log(64)log(N+1))
其中 N 是单元格中的点数。 - 注意,强度和密度特征是针对整个点云计算的,而高度特征是针对 M 个切片计算的,因此鸟瞰图被编码为 (M +2) 通道特征。(M个高度特征,1个强度特征,1个密度特征)
- 前视图表示。前视图表示为鸟瞰图表示提供补充信息。由于 LIDAR 点云非常稀疏,将其投影到图像平面会产生稀疏的 2D 点图。相反,我们将其投影到圆柱平面以生成密集的前视图图。给定一个 3D 点
p
=
(
x
,
y
,
z
)
p = (x, y, z)
p=(x,y,z),它在前视图地图中的坐标则为
p f v = ( r , c ) p_{fv} = (r, c) pfv=(r,c)
其中 c = ⌊ a t a n 2 ( y , x ) / Δ θ ⌋ c = \lfloor atan2(y,x)/\Delta\theta \rfloor c=⌊atan2(y,x)/Δθ⌋, r = ⌊ a t a n 2 ( z , x 2 + y 2 ) / Δ ϕ ⌋ r = \lfloor atan2(z,\sqrt{x^2+y^2})/\Delta\phi \rfloor r=⌊atan2(z,x2+y2)/Δϕ⌋; Δ θ \Delta\theta Δθ 和 Δ ϕ \Delta\phi Δϕ 分别是激光束的水平和垂直分辨率。我们使用三通道特征对前视图图进行编码,即高度、距离和强度。
3D Proposal Network
- 受区域提议网络 (RPN) 的启发,我们首先设计了一个网络来生成 3D 对象提议。我们使用鸟瞰图作为输入。在 3D 物体检测中,鸟瞰图比前视图(Front View map)或图像(RGB)平面有几个优势:
- 首先,物体在投射到鸟瞰图时会保持物理尺寸,因此尺寸变化很小,而在前视图(Front View map)或图像(RGB)平面中则不是这种情况。
- 其次,鸟瞰视图中的物体占据不同的空间,从而避免了遮挡问题。
- 第三,在道路场景中,由于物体通常位于地平面上并且垂直位置变化较小,因此鸟瞰图位置对于获得准确的 3D 边界框更为关键。
因此,使用显式鸟瞰图作为输入使得 3D 位置预测更加可行。(使用BEV提出区域建议框会更加准确)
- 实施细节:
- 给了一张鸟瞰图。该网络从一组 3D Prior boxes 生成 3D Proposal boxes。每个3D box 使用 ( x , y , z , l , w , h ) (x,y,z,l,w,h) (x,y,z,l,w,h)来参数化,它们是激光雷达坐标系中3D框的中心 ( x , y , z ) (x,y,z) (x,y,z)和大小 ( l , w , h ) (l,w,h) (l,w,h),以米为单位。
- 对于每一个3D Prior boxes,通过离散化 ( x , y , l , w ) (x,y,l,w) (x,y,l,w),可以得到对应的鸟瞰图中的anchor ( x b v , y b v , l b v , w b v ) (x_{bv},y_{bv},l_{bv},w_{bv}) (xbv,ybv,lbv,wbv)。
- Prior boxes的提出:通过对训练集中的真实对象大小进行聚类,从而设计出N个3D先验框。在车辆检测的案例中,先验框的 l l l取值范围为 ( 3.9 − 1.6 ) (3.9-1.6) (3.9−1.6), w w w取值范围为 ( 1.0 − 0.6 ) (1.0-0.6) (1.0−0.6),高度 h h h设置为1.56m;通过将鸟瞰图中的anchor不停旋转90°(旋转四次),就可以获得 N = 4 N=4 N=4个先验框;在鸟瞰图中获得 ( x , y ) (x,y) (x,y), z z z则可以根据相机高度和物体高度进行计算获得。
- 方向回归不在生成Proposal的过程中进行,而将其留给下一个预测阶段。
- 3D boxes 的方向被限制为 {0°, 90°},这接近于大多数道路场景对象的实际方向。这种简化使得Proposal回归的训练更容易。
- 在0.1m的离散化分辨率下,鸟瞰图中的物体框仅占5∼40个像素。检测这种超小物体对于深度网络来说仍然是一个难题。一种可能的解决方案是使用更高分辨率的输入,然而,这将需要更多的计算。我们选择 [1] 中的特征图上采样。我们在提案网络的最后一个卷积层之后使用 2x 双线性上采样。在我们的实现中,前端卷积仅进行三个池化操作,即 8x 下采样。因此,结合 2x 反卷积,输入到提案网络的特征图相对于鸟瞰图输入进行了 4x 下采样。(?)
- 回归方式:类似于RPN,我们进行3D框回归的方式是通过回归到 t = ( Δ x , Δ y , Δ z , Δ l , Δ w , Δ h ) t=(\Delta x,\Delta y,\Delta z, \Delta l, \Delta w, \Delta h) t=(Δx,Δy,Δz,Δl,Δw,Δh)。其中, ( Δ x , Δ y , Δ z ) (\Delta x,\Delta y,\Delta z) (Δx,Δy,Δz)是通过anchor尺寸归一化的中心偏移量; ( Δ l , Δ w , Δ h ) (\Delta l, \Delta w, \Delta h) (Δl,Δw,Δh)计算为 Δ s = l o g ( s G T s a n c h o r ) , s ∈ { l , w , h } \Delta s =log\left(\frac{s_{GT}}{s_{anchor}}\right),s \in \left\{l,w,h\right\} Δs=log(sanchorsGT),s∈{l,w,h}。我们使用多任务损失来同时对 对象/背景 进行分类并进行 3D 框回归。特别是,我们对“objectness”损失使用类熵,对 3D 框回归损失使用 Smooth l 1 l1 l1 。计算回归框损失时,背景anchor被忽略。在训练期间,我们计算anchors和真实鸟瞰图框之间的 IoU 重叠。如果重叠度高于 0.7,则认为锚是正的,如果重叠度低于 0.5,则认为锚是负的。中间有重叠的锚点将被忽略(非极大抑制)。
- 此外,由于 LIDAR 点云稀疏,导致许多空锚点,我们在训练和测试期间删除所有空锚点以减少计算量。这可以通过计算点占用图上的积分图像来实现(看anchors里点云的数量)。对于最后一个卷积特征图的每个位置的每个非空anchor,网络生成一个 3D 框。为了减少冗余,我们在鸟瞰图框上应用了非极大值抑制(NMS)。我们没有使用 3D NMS,因为物体应该在地平面上占据不同的空间。我们对 NMS 使用 0.7 的 IoU 阈值。训练时保留前 2000 个框,而在测试中,我们只使用 300 个框。
Region-based Fusion Network
我们设计了一个基于区域的融合网络,以有效地组合来自多个视图的特征,并共同对目标Proposal进行分类并进行定向 3D 框回归。
- Multi-View ROI pooling。由于来自不同视图(三种,分别是鸟瞰图、前视图和RGB相机图)/模态(两种,分别是相机和激光雷达)的特征通常具有不同的分辨率,因此我们对每个视图使用 ROI pooling [9] 以获得相同长度的特征向量(解释了为什么要使用ROI Pooling,以及使用ROI Pooling后这些向量就具有相同的长度了)。使用生成的 3D Proposal,我们可以将它们投影到 3D 空间中的任何视图(投影的是Proposal,先生成Proposal才能投影和融合)。在我们的例子中,我们将它们投影到三个视图,即鸟瞰图 (BV)、前视图 (FV) 和图像平面 (RGB)。给定一个 3D Proposal
p
3
D
p_{3D}
p3D,我们通过以下方式获得每个视图(view)的 ROI:
R O I v = T 3 D → v ( p 3 D ) , v ∈ { B V , F V , R G B } ROI_v = T_{3D\rightarrow v}\left(p_{3D} \right), v\in \left\{BV,FV,RGB\right\} ROIv=T3D→v(p3D),v∈{BV,FV,RGB}
其中 T 3 D → v T_{3D\rightarrow v} T3D→v分别表示从激光雷达坐标系到鸟瞰图(BV)、前视图(FV)和图像(RGB)平面的变换函数。给定来自每个视图(view)的前端网络的输入特征图 x x x,我们通过 ROI Pooling 获得固定长度的特征 f v f_v fv(此处就说明了,经过ROI Pooling后,三个视图拥有长度相同的特征向量):
f v = R ( x , R O I v ) , v ∈ { B V , F V , R G B } f_v = R\left(x,ROI_v\right),v\in \left\{BV,FV,RGB\right\} fv=R(x,ROIv),v∈{BV,FV,RGB} - 深度融合。为了结合来自不同特征的信息,先前的工作通常使用 早期融合 或 晚期融合 。本文采用深度融合方法,分层融合多视图特征。
- 对于具有 L 层的网络,早期融合在输入阶段结合来自多个视图的特征
f
v
f_v
fv:
f L = H L ( H L − 1 ( ⋯ H 1 ( f B V ⊕ f F V ⊕ f R G B ) ) ) f_L = H_L\left(H_{L-1}\left(\cdots H_1\left(f_{BV}\oplus f_{FV} \oplus f_{RGB}\right)\right)\right) fL=HL(HL−1(⋯H1(fBV⊕fFV⊕fRGB)))
其中 { H l , l = 1 , . . . , L } \left\{H_l,l=1,...,L\right\} {Hl,l=1,...,L}是特征转换函数, ⊕ \oplus ⊕ 是连接操作(例如,串联、求和)。 - 相反,后期融合使用单独的子网络独立学习特征转换,并在预测阶段组合它们的输出:
f L = ( H L B V ( H L − 1 B V ( ⋯ H 1 B V ( f B V ) ) ) ) ⊕ ( H L F V ( H L − 1 F V ( ⋯ H 1 F V ( f F V ) ) ) ) ⊕ ( H L R G B ( H L − 1 R G B ( ⋯ H 1 R G B ( f R G B ) ) ) ) f_L = \left(H^{BV}_{L}\left(H^{BV} _{L-1} \left( \cdots H^{BV}_{1} \left(f_{BV}\right)\right)\right)\right) \oplus \left(H^{FV}_{L}\left(H^{FV} _{L-1} \left( \cdots H^{FV}_{1} \left(f_{FV}\right)\right)\right)\right) \oplus \left(H^{RGB}_{L}\left(H^{RGB} _{L-1} \left( \cdots H^{RGB}_{1} \left(f_{RGB}\right)\right)\right)\right) fL=(HLBV(HL−1BV(⋯H1BV(fBV))))⊕(HLFV(HL−1FV(⋯H1FV(fFV))))⊕(HLRGB(HL−1RGB(⋯H1RGB(fRGB)))) - 为了使不同视图的中间层特征(融合阶段的中间层)之间有更多的交互,我们设计了以下深度融合过程:
f 0 = f B V ⊕ f F V ⊕ f R G B f_0 = f_{BV} \oplus f_{FV} \oplus f_{RGB} f0=fBV⊕fFV⊕fRGB
f l = H l B V ( f l − 1 ) ⊕ H l F V ( f l − 1 ) ⊕ H l R G B ( f l − 1 ) , ∀ l = 1 , . . . , L f_l = H^{BV}_{l} \left( f_{l-1}\right) \oplus H^{FV}_l \left(f_{l-1}\right) \oplus H^{RGB}_l \left( f_ {l-1}\right),\forall l = 1, ...,L fl=HlBV(fl−1)⊕HlFV(fl−1)⊕HlRGB(fl−1),∀l=1,...,L
我们对深度融合的连接操作使用逐元素均值,因为它在与 droppath 训练相结合时更加灵活。
- Oriented 3D Box Regression:
- 目的:鉴于多视图网络的融合特征,我们从 3D proposals 回归到 oriented 3D boxes。
- 方法:回归目标是 3D 框(oriented 3D boxes)的 8 个角: t = ( Δ x 0 , ⋅ ⋅ ⋅ , Δ x 7 , Δ y 0 , ⋅ ⋅ ⋅ , Δ y 7 , Δ z 0 , ⋅ ⋅ ⋅ , Δ z 7 ) t = \left(\Delta x_0, · · · , \Delta x_7, \Delta y_0, · · · , \Delta y_7, \Delta z_0, · · · , \Delta z_7\right) t=(Δx0,⋅⋅⋅,Δx7,Δy0,⋅⋅⋅,Δy7,Δz0,⋅⋅⋅,Δz7)。它们被编码为由Proposal框的对角线长度归一化的角偏移(?)。尽管这样的 24 维向量表示在表示 oriented 3D boxes 方面是多余的,但我们发现这种编码方法比中心和大小编码方法效果更好。
- 网络正则化:我们采用两种方法对基于区域的融合网络进行正则化:drop-path training 和 auxiliary losses。对于每次迭代,我们随机选择做全局丢弃路径或局部丢弃路径,概率为 50%。
- 如果选择全局丢弃路径,我们会以相等的概率从三个视图中选择一个视图。
- 如果选择局部丢弃路径,则输入到每个连接节点的路径将以 50% 的概率随机丢弃。我们确保为每个连接节点至少保留一个输入路径。为了进一步加强每个视图的表示能力,我们在网络中添加了辅助路径和损失(下图中绿色部分)。
可以看出,辅助路径与主网络具有相同的层数,且辅助路径中的每一层都与主网络路径中的相应层共享权重。我们(在主网络和辅助路径中)使用相同的多任务损失,即分类损失加上 3D 框回归损失,来反向传播每个辅助路径(这是在训练过程中)。我们对包括辅助损失在内的所有损失进行平均加权(训练损失两方面考虑,主网络和辅助路径一起平均)。辅助路径在推理过程中被移除(检测阶段不使用辅助路径)。
Implementation
- 网络架构。在我们的多视图网络中,每个视图都具有相同的架构。基础网络建立在 16 层 VGG 网络上,并进行了以下修改:
- Channels 减少到原来网络的一半。
- 为了处理超小物体,我们使用特征近似来获得高分辨率特征图。特别是,我们在将最后一个卷积特征图馈送到 3D Proposal 网络之前插入一个 2x 双线性上采样层。同样,我们在 BV/FV/RGB 分支的 ROI 池化层之前插入一个 4x/4x/2x 上采样层。
- 我们删除了原始 VGG 网络中的第 4 个池化操作,因此我们网络的卷积部分进行了 8 倍下采样。此处放一个VGG16的网络做对比
- 在多视图融合网络中,除了原始的 f c 6 fc_6 fc6 和 f c 7 fc_7 fc7 层之外,我们还添加了一个额外的全连接层 f c 8 fc_8 fc8。
我们通过从在 ImageNet 上预训练的 VGG-16 网络中采样权重来初始化参数(使用了预训练模型)。尽管我们的网络有三个分支,但参数数量约为 VGG-16 网络的 75%。在 Titan X GPU 上,一张图像的网络推理时间约为 0.36 秒。
2. 输入表示。在 KITTI 的情况下,它只为前视图(大约 90° 视野)中的对象提供注释,我们使用 [0, 70.4] × [-40, 40] m (x范围是0—70.4m, y范围是-40—40m)范围内的点云。当投影到图像平面时,我们还会删除超出图像边界的点。对于鸟瞰图,离散化分辨率设置为0.1m,因此鸟瞰图输入的尺寸为704×800(
(
70.4
−
0
)
×
10
×
(
40
+
40
)
×
10
(70.4-0)×10 × (40+40)×10
(70.4−0)×10×(40+40)×10)。由于 KITTI 使用 64-beam Velodyne 激光扫描仪,我们可以获得 64×512 的前视点地图。 RGB 图像被放大,因此最短尺寸为 500。
3. 训练。该网络以端到端的方式进行训练。对于每个小批量,我们使用 1 张图像(batchsize=1)并采样 128 个 ROI,大致保持 25% 的 ROI 为正。我们使用 SGD 训练网络,学习率为 0.001,进行 100K 次迭代。然后我们将学习率降低到 0.0001 并训练另外 20K 次迭代。
Experiments
我们在具有挑战性的 KITTI 对象检测基准上评估我们的 MV3D 网络。该数据集提供了 7,481 张用于训练的图像和 7,518 张用于测试的图像。由于测试服务器只评估 2D 检测,我们将训练数据分为训练集和验证集,每个大约包含整个训练数据的一半。我们对验证集进行 3D 框评估。我们将实验重点放在汽车类别上,因为 KITTI 为我们基于深度网络的方法提供了足够的汽车实例。按照 KITTI 设置,我们对三种难度机制进行评估:简单、中等和困难。
- 指标。我们使用 3D box recall 作为度量来评估 3D object proposals。不同于 2D box recall,我们计算两个长方体的 IoU 重叠。请注意,长方体不必与轴对齐,即它们可以是定向的 3D 框。在我们的评估中,我们将 3D IoU 阈值分别设置为 0.25 和 0.5。对于最终的 3D 检测结果,我们使用两个指标来衡量 3D 定位和 3D 边界框检测的准确性。
- 对于 3D 定位,我们将 3D 框投影到地平面(即鸟瞰图)以获得定向鸟瞰图视角框。我们计算鸟瞰图框的平均精度 (APloc)。
- 对于 3D 边界框检测,我们还使用平均精度 (AP3D) 指标来评估完整的 3D 边界框。请注意,鸟瞰图框和 3D 框都是有方向的,因此在这两个指标中隐式考虑了对象方向。
- 我们还通过将 3D 框投影到图像平面来评估 2D 检测的性能。平均精度 (AP2D) 也用作度量标准。按照 KITTI 惯例,2D 框的 IoU 阈值设置为 0.7。
- Baseline。由于这项工作针对 3D 目标检测,我们主要将我们的方法与基于 LIDAR 的方法 VeloFCN 、Vote3Deep 和 Vote3D 以及基于图像的方法 3DOP 和 Mono3D 进行比较。
- 为了公平比较,我们关注我们方法的两个变体,即使用鸟瞰图和前视图作为输入的纯基于激光雷达的变体(BV+FV),以及结合激光雷达和 RGB 数据的多模态变体(BV+ FV+RGB)(又控制变量了一次,即消融实验)。对于 3D 框评估,我们与 VeloFCN、3DOP 和 Mono3D 进行比较,因为它们提供了验证集上的结果。对于没有公开结果的Vote3Deep和Vote3D,我们只在测试集上做2D检测对比。
- 3D Proposal recall。我们使用 300 个 Proposal 将召回率绘制为 IoU 阈值的函数。我们的方法在所有 IoU 阈值上明显优于 3DOP [4] 和 Mono3D [3]。下图还显示了在 IoU 阈值分别为 0.25 和 0.5 的情况下,3D 召回率与Proposal数量的函数关系。仅使用 300 个建议,我们的方法在 IoU 阈值为 0.25 时获得 99.1% 的召回率,在 IoU 为 0.5 时获得 91% 的召回率。相比之下,当使用 0.5 的 IoU 时,3DOP 所能达到的最大召回率仅为 73.9%。较大的余量表明我们基于激光雷达的方法优于基于图像的方法。
- 3D Localization。我们使用 0.5 和 0.7 的 IoU 阈值进行 3D 定位评估。正如预期的那样,所有基于 LIDAR 的方法都比基于立体的方法 3DOP 和单目方法 Mono3D 表现更好。在基于 LIDAR 的方法中,我们的方法 (BV+FV) 在 IoU 阈值 0.5 下优于 VeloFCN ~25% APloc。当使用 IoU=0.7 作为标准时,我们的改进更大,在简单、中等和困难的条件下实现了 ~45% 的高 APloc。通过结合 RGB 图像,我们的方法得到了进一步改进。
- 3D 目标检测。对于 3D 重叠标准,我们关注基于激光雷达的方法的 3D IoU 为 0.5 和 0.7。由于这些 IoU 阈值对基于图像的方法相当严格,我们还使用 0.25 的 IoU 进行评估。当使用 0.5 的 IoU 时,我们的“BV+FV”方法获得的 AP3D 比 VeloFCN 高 30%,达到 87.65%中等设置的 AP3D。在 IoU=0.7 的条件下,我们的多模式方法在简单数据上仍然达到了 71.29% 的 AP3D。在中等设置下,使用 IoU=0.25 的 3DOP 可实现的最佳 AP3D 为 68.82%,而我们的方法使用 IoU=0.5 可实现 89.05% AP3D。
- 消融研究。
- 首先将我们的深度融合网络与早期/晚期融合方法进行比较。正如文献中常用的那样,连接操作在早期/晚期融合方案中通过连接来实例化。早期和晚期融合方法具有非常相似的性能。在不使用辅助损失的情况下,深度融合方法比早期和晚期融合方法实现了约 0.5% 的改进。添加辅助损失进一步将深度融合网络提高了 1% 左右。
- 为了研究来自不同视图的特征的贡献,我们尝试了鸟瞰图(BV)、前视图(FV)和 RGB 图像(RGB)的不同组合。 3D Proposal 网络对于所有变体都是相同的。如果仅使用单个视图作为输入,鸟瞰图特征表现最好,而前视图特征最差。将这两种观点中的任何一种结合起来总能比个别观点有所改进。这证明了我们的假设,即来自不同观点的特征是互补的。当融合所有三个视图的特征时,可以获得最佳的整体性能。
- 二维目标检测。我们最终评估了 KITTI 测试集上的二维检测性能。在基于 LIDAR 的方法中,我们的“BV+FV”方法在硬设置中优于最近提出的 Vote3Deep 方法 14.93% AP2D。总的来说,在二维检测方面,基于图像的方法通常比基于激光雷达的方法表现更好。这是因为基于图像的方法直接优化 2D 框,而基于 LIDAR 的方法优化 3D 框。请注意,尽管我们的方法优化了 3D 框,但与最先进的 2D 检测方法相比,它也获得了有竞争力的结果。
- 定性结果。与基于立体的方法 3DOP 和基于激光雷达的方法 VeloFCN 相比,我们的方法获得了更准确的物体 3D 位置、大小和方向。我们建议读者参阅补充材料以获得许多其他结果。
Conclusion
我们提出了一种用于道路场景中 3D 目标检测的多视图感官融合模型。
- 我们的模型同时利用了 LIDAR 点云和图像。
- 我们通过生成 3D Proposal 并将它们投影到多个视图以进行特征提取来对齐不同的模态。
- 提出了一种基于区域的融合网络来深度融合多视图信息并进行定向 3D 框回归。
- 我们的方法在 KITTI 基准的 3D 定位和 3D 检测任务上明显优于现有的基于 LIDAR 和基于图像的方法。与最先进的 2D 检测方法相比,我们从 3D 检测中获得的 2D 框结果也显示出具有竞争力的性能。