LIDAR and Monocular Camera Fusion: On-road Depth Completion for Autonomous Driving 论文笔记

这是一篇通过lidar和单目相机进行深度补全的。由于深度相机只能捕获几米范围内的物体深度,因此深度相机很难感应到大规模的路况,距离、透明度、明亮的表面是RGBD相机的主要限制因素。

本文贡献

1.使用早期融合技术和resnet-50作为特征编码器。

2.A Residual Up-Projection block (RUB)修复空间分辨率。

3.上下文信息通过skip connections从编码器块传播到RUB。

Residual Up-Projection Block

Residual Up-Projection Block在decode网络中,最常见的向上缓冲层通过考虑附近patch的特征来提高空间分辨率,可以应用双线性插值或最近邻插值机制,该机制在全卷积神经网络中广泛用于语义分割任务。但是,该上采样层不足以完成深度,因为它没有考虑几何和语义信息,结果,它增加了对象边界上的预测误差。 [18]中定义的反卷积层通过Up-Pooling内核对特征图进行上采样,这些内核可恢复图像中的细节。 我们的残差向上投影模块(RUB)通过将残差引入模块来进一步优化向上采样过程。 5 * 5卷积层可恢复特征图的局部细节。通过3 * 3卷积层来帮助训练步骤。shorcut映射通过减少3*3卷积来帮助训练。

在这里插入图片描述
Skip connections

通过级联编码块和解码块,RUB接受大数量的特征通道,随着更多的信息被传递到更高的分辨率层,可以提升深度预测的效果。在大多数网络中,修复图像细节和上下文信息非诚困难。这个skip connection将缺少的详细特征如物体边界等转发到更高分辨率的解码快。

在这里插入图片描述
network architecture

在早期数据融合之后包含四个输入通道,LIDAR的稀疏3D功能提供了启发式深度回归的功能,而不是根据单个RGB图像预测像素方向的深度。 相反,来自RGB图像的纹理特征对语义信息进行编码,从而补全了稀疏的lidar点云。总之,这个网络学习通过考虑RGB和lidar的先验信息学习每个像素的局部几何。与RGB图像不同,LIDAR投影图像没有明显的纹理,并且很难在投影图像中找到图案。 结果,我们无法轻松地找到投影图像中的LIDAR点簇与RGB图像中的特征之间的关联。 通过使用建议的早期融合网络可以解决此问题。 我们将Resnet用作编码网络,这意味着特征张量会通过连续的残差块传播。 我们将四个RUB与跳过连接链接在一起作为解码器,以实现高分辨率的密集深度图。

Berhu loss function

对于递归问题常见的损失函数就是MSE,然而,MSE不足以完成深度任务,因为它会因较大的错误而受到更大的惩罚。 它学习如何平滑和模糊对象边界上的边缘,在自动驾驶情况下的室外场景中后果更严重[1]。 为了避免这些问题,我们将Berhu损失作为损失函数进行训练,参数c是与批次相关的参数,考虑了预测深度图中所有像素的最大绝对误差,在本文中,把c视为在一个批次中最大绝对误差的20%,如果预测误差的绝对值小于C。则berhu表现为平均结对误差,否则近似充当均方误差。

在这里插入图片描述
Network Training and data Augmentation

我们将在ImageNet数据集上经过预训练的Resnet用作编码器,并使用上面介绍的RGB-D输入微调残差块。 由于我们的计算资源有限,我们使用了较小的批量大小(16个),并将网络训练了20个epochs。 我们选择使用从0.01开始降低学习率的SGD优化器。 我们进行了在线数据增强过程,该过程随机转换原始图像。

Experimental Setup and Evaluation Metric

在NYUdepthv2数据集上测试,这个数据集是一个大型的RGB和深度数据集,主要是室内场景,训练接47584张图,测试集654张图,为了将提出的方法与以前的算法进行公平比较,我们将原始图像下采样到半分辨率,然后将图像中心裁剪到320 * 256像素。在训练过程中,从groundtruth像中随机采样一个稀疏的输入深度图。 我们没有在每个训练样本中使用固定的稀疏深度输入,而是在每个训练时期随机生成稀疏深度。 这可以扩充训练数据并获得更强大的网络。 我们不仅在室内深度数据集上评估了拟议的网络,还在公路自动驾驶KITTI里程表数据集上测试了性能。我们选择了46416个具有groundtruth的数据样本进行的模型训练,并选择3200张图像进行评估。 深度图是通过将LIDAR点云投影到图像平面上而构建的。 与所有图像像素都有深度值的NYUDepthV2数据集不同,只有部分图像像素包含深度值。 结果,我们裁剪了图像的底部部分,大小为928 * 256,其中存在投影的LIDAR点。
为了将提议的网络与最新方法进行比较,我们使用benchmark数据集提供的以下评估指标,我们比较了均方根误差(RMSE),它直接测量所有像素的平均误差。 为了摆脱缩放问题,我们还比较了平均绝对相对误差(REL)。 为了计算某个阈值内的像素百分比,我们还考虑了δj矩阵。

Results and Discussion on Benchmark Dataset

我们的方法通过链接四个RUB改进了深度预测,这可以在深度图中捕获更详细的纹理。 通过使用我们提出的具有跳过连接的体系结构,与最新方法[23]相比,我们在NYUDepthV2数据集上获得了更好的性能11.3%。 对于KITTI里程表数据集,与最新的基于单个RGB图像的网络相比,我们实现了40.4%的改进,而与最新的单个RGB图像和LIDAR融合方法相比,REL的改进率为13%。 详细比较见表I和表II

在这里插入图片描述
在这里插入图片描述

Test on Reduced Resolution KITTI Odometry Dataset
为了降低KITTI里程表数据的密集点云的分辨率,我们从密集点云中选择LIDAR点带。 这样,分辨率降低的Velodyne数据具有与平面LIDAR相似的点云特征。
为了测试所提出体系结构的性能,我们将不同的输入应用于网络。 如表III所示,早期融合架构的性能要优于使用单个RGB图像和单个平面LIDAR深度图作为输入,这分别将RMSE提高了30%和10%。 结果,早期的融合技术实现了更好的逐像素深度预测,因为LIDAR提供了深度指南,而RGB图像提供了语义信息。
在这里插入图片描述
通常,深度预测RMSE的均值和标准差会随着groundtruth深度而单调增加,根据我们的分析,其原因可总结如下。 首先,与附近地区相比,我们在遥远地区的LIDAR点更少。 其次,RGB图像的纹理和特征在很远的距离上,尤其是在通常很小的消失点处,这些像素的深度值会急剧变化。 如图4a和图4b所示,与采用单个RGB作为输入相比,激光雷达和相机融合技术的均方根均方根误差更好。当groundtruth深度在40米以内时,我们的平均RMSE误差小于5米。 与单个LIDAR输入进行比较,我们使用LIDAR和相机融合获得了更好的均值和STD。
在这里插入图片描述
结论

在本文中,我们提出了一种深度融合架构,该架构将LIDAR与RGB图像融合在一起,以完成周围环境的深度图。 应用残余向上投影块来恢复密集深度图。 跳过连接将特征图从编码器块传递到解码器块,这有助于解码器网络从特征张量捕获更多上下文信息。 我们的方法优于NYUDepthV2数据集和KITTI里程表数据集上的常规方法。 我们还将提出的方法应用于分辨率降低的KITTI里程表数据集,以估计像素级深度图。 进一步的工作将在真实的平面激光雷达和密集点云数据集上测试该方法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值