UnRectDepthNet: Self-Supervised Monocular Depth Estimation using a Generic Framework for Handling

kebijuelun

已于 2022-01-27 10:58:32 修改

阅读量736

点赞数

分类专栏： paper_reading 文章标签：计算机视觉深度学习人工智能

于 2022-01-25 22:09:18 首次发布

本文链接：https://blog.csdn.net/kebijuelun/article/details/122619162

版权

paper_reading 专栏收录该内容

100 篇文章 12 订阅

订阅专栏

Paper name

UnRectDepthNet: Self-Supervised Monocular Depth Estimation using a Generic Framework for Handling Common Camera Distortion Models

Paper Reading Note

URL: https://arxiv.org/pdf/2007.06676.pdf
Demo Video： https://www.youtube.com/watch?v=K6pbx3bU4Ss
IROS presentation： https://www.youtube.com/watch?v=3Br2KSWZRrY

TL;DR

IROS 2020 的 oral 文章，出自于德国 Valeo 自动驾驶公司，主要是将该公司之前的工作 FisheyeDistanceNet 由鱼眼泛化到广角相机上

Introduction

图像校正 (image rectification) 是稠密深度估计任务中非常重要的环节，比如双目 (stereo) 深度估计任务中的极线对齐 (epipolar rectification) 用来使得像素匹配过程只需要在水平方向进行；单目深度估计畸变校正也是必备环节，目前所有在 KITTI 上提出的深度估计方法都使用的桶形畸变校正后的图像
应用与自动驾驶任务的广角或鱼眼相机的畸变过大，一般难以直接校正，一些运动分割和镜头表面固化泥浆检测的方法已经证明可以直接在没有校正后的鱼眼图像上来做
本文提出了一种对原始的无畸变校正图像进行深度估计的方法，贡献点如下：
- 一个通用的端到端自监督训练方法，用于直接估计带畸变图片的深度
- 在 KITTI 和 WoodScape 数据集上评估
- 首次在非校正的 KITTI 序列上进行评测
- 在 KITTI 数据集的单目自监督深度估计方法中达到了 SOTA

在这里插入图片描述

Dataset/Algorithm/Model/Experiment Detail

实现方式

在这里插入图片描述

在未畸变校正图像上进行深度估计的目的

自动驾驶的相机设计方面一般是前向摄像头使用 100° hFOV，周围的相机使用 190° hFOV，这些相机存在镜头畸变，其主要成分通常是径向畸变和较小的切向畸变
适度 FOV 的一般广角相机透镜模型（FOV<120°）：一般使用 Brown–Conrady 模型，因为该模型同时建模了径向畸变和切向畸变。在该模型下，将相机坐标系下 3D 点映射到图像坐标系的方式：

其中 $k_{1}$ 、 $k_{2}$ 、 $k_{3}$ 是径向畸变参数， $p_{1}$ 、 $p_{2}$ 是切向畸变参数
鱼眼相机的透镜模型（FOV>=180°）：需要一个径向分量 $r(\theta)$ ，透镜模型如下：

鱼眼径向畸变模型有，其中 Polynomial 较为常用，UCM 和 eUCM (Enhanced UCM) 是相对较新的方法，Rectilinear (representation of pinhole model) 和 Stereographic (mapping of sphere to a plane) 对于鱼眼成像模型不适用，Double
Sphere 是近期提出的模型（具有计算复杂度低的闭合形式逆）：
使用畸变校正后的图像再进行深度估计的问题
- KITTI 畸变校正前的尺寸为 1392x512，畸变校正后为了去除边缘的黑色区域，这样剪裁大概会少 10% 的有效信息；对于 WoodScape 这种径向畸变更大的数据会有 30% 的信息被遗漏
- 对于鱼眼相机，畸变校正过程的 resampling distortion 的误差更大
- 测试阶段进行畸变校正过程是费时的
- 模组畸变校正参数标定步骤繁琐，且畸变参数随着环境温度变化也会改变

自监督训练

重投影
- 这里的重投影过程与 monodepth2 中的方式一致，但这里使用了多个相机模型
reconstruction loss
- 与 monodepth2 一致，加上了 95 分位数截断
Solving Scale Factor Ambiguity at Training Time
- 与作者之前工作（FisheyeDistanceNet）一样，也是使用汽车的瞬时速度提供一个确定的 scale
Edge-Aware Depth Smoothness Loss
- 与 monodepth2 一致，约束无纹理区域的视差相对光滑
最终损失
- 和 FisheyeDistanceNet 完全一样，本文没有具体展开的 Ldc 就是同一个视频序列中不同帧的深度一致性约束
网络结构也是与 FisheyeDistanceNet 完全一致

实验结果

KITTI 的无畸变校正图片:0使用 608×224 输入，对于 WoodScape 图片：使用 512x256 输入
定量实验结果，该方法在 KITTI 正常畸变校正的图像集上也取得了 SOTA 效果，未畸变校正的数据集上取得的精度略低于畸变校正数据集精度（但608 x 224分辨率下未畸变校正精度更高）；在 WoodScape 上的精度，本文的方法也比 FisheyeDistanceNet 略有提升
消融实验结果，反向训练序列(Backward Sequence) 涨点明显，这个在 FisheyeDistanceNet 中有具体介绍；Super-Resolution（sub-pixel convolution）也涨点明显
定性实验结果

Thoughts

这篇文章和作者之前的 FisheyeDistanceNet 的训练方式基本一致，不同的就是重投影计算中支持使用多种相机模型（支持鱼眼和一般广角），看起来在单目无监督这里，适配不同模组的相机模型进行训练就能达到模型适配的效果
作者的 future work 是希望能同时训练多个不同相机模型的数据来训练一个通用的深度估计模型