FisheyeDistanceNet-Self-Supervised Scale-Aware ……(一)

准备工作:

什么是自监督?

        自监督:利用辅助任务从无监督的数据中挖掘大量自身的信息。(辅助任务就是基于数据特征构造一个任务进行训练)

        其中辅助任务:例如输入一张图片,把图片随机旋转一个角度,然后把旋转后的图片作为输入,随机旋转的角度作为标签。再例如,把输入的图片均匀分割成3*3的格子,每个格子里面的内容作为一个patch,随机打乱patch的排列顺序,然后用打乱顺序的patch作为输入,正确的排列顺序作为label。类似这种自动产生的标注,完全无需人工参与。
自监督学习如何评价性能?自监督学习性能的高低,主要通过模型学出来的feature的质量来评价。feature质量的高低,主要是通过迁移学习的方式,把feature用到其它视觉任务中(分类、分割、物体检测…),然后通过视觉任务的结果的好坏来评价。 原文链接:https://blog.csdn.net/qq_43024853/article/details/123856891

        有监督:全部数据集均有标签(需要大量人工标注)、

        无监督:不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类相关的任务。

        半监督(semi-supervised learning):利用好大量无标注数据和少量有标注数据进行监督学习;

摘要

        鱼眼摄像头通常用于自动驾驶和监控等应用,以提供大视场(>180◦). 然而,它们是以需要更复杂算法的强烈非线性失真为代价的。本文研究了汽车场景中鱼眼摄像机的欧氏距离估计。获得准确的密集深度监督在实践中很难实现,但自监督学习方法显示出良好的效果,可以克服这个问题。我们提出了一种新的自我监督尺度感知框架,用于从未经矫正的单目鱼眼视频中学习欧氏距离和ego-motion(自我运动)。虽然可以对鱼眼投影面进行分段线性近似并应用标准的直线模型,但它有自己的一组问题,如重新采样失真和过渡中的不连续性区域。为了鼓励在这一领域的进一步研究,我们将发布我们的数据集,作为WoodScape项目的一部分[1]。我们在KITTI数据集上进一步评估了所提出的算法,并获得了与其他自监督单目方法类似的最新结果。一段前所未有的鱼眼视频的定性结果显示了令人印象深刻的表现

介绍

        由于鱼眼摄像机的大视场(FOV),其在各种汽车应用[2]、[3]、[4]、监控[5]和机器人[6]中的使用量显著增加。最近,人们探索了鱼眼相机的几种计算机视觉任务,包括物体检测[7]、污渍检测[8]、运动估计[9]、图像恢复[10]和SLAM[11]。深度估计是自动驾驶中的一项重要任务,因为它用于避免障碍物和计划轨迹。虽然已经对窄视场摄像机的深度估计进行了大量研究,但鱼眼摄像机的深度估算却很少研究[12]、[13]。. 

        以前的基于学习的方法[14]、[15]、[16]、[17]只关注传统的2D内容,这些内容是按照基于校正图像序列的典型针孔投影模型,通过摄像机捕获的。随着高效廉价的广角鱼眼相机及其更大视场的涌现与针孔相机不同,计算机视觉界对通过全方位立体[18]、[19]、[20]、[21]和运动结构structure-from-motion(SfM)[22]方法从与传统2D内容类似的全方位内容执行深度估计有着浓厚的兴趣。

        深度估计模型可以在LiDAR距离测量的监督方式下学习,如KITTI[23]。在之前的工作中,我们采用了这种方法,并证明了评估高质量的可能性。使用激光雷达在鱼眼图像上绘制的距离图[12]。然而,为此类记录设置整个钻机既昂贵又耗时,限制了模型训练所需的数据量。为了克服这个问题,我们提出FisheyeDistanceNet,这是第一个端到端的自我监督单目尺度感知训练框架。FisheyeDistanceNet在原始鱼眼图像序列上使用卷积神经网络(CNN)回归欧氏距离图,并为单帧欧氏距离估计提供基线。我们的贡献总结如下:

•自我监督训练策略旨在从一系列扭曲和未校正的原始鱼眼图像推断距离图。
•借助自我运动速度的支撑,可以输出公制距离图,从而解决比例因子的不确定性。这有助于地图实际用于自动驾驶汽车。
•超分辨率网络和可变形进化层的新型组合[24],从低分辨率输入,输出具有尖锐边界的高分辨率距离图。受图像超分辨率方法[25]的启发,这种方法允许我们精确解析距离,取代反褶积[26]和简单的最近邻或双线性上采样。
•我们描述了使用反向序列进行训练的重要性,并构建了这些序列的损失。

        此外,还使用了过滤静态像素(filtering static pixels)和自我掩码(ego mask)的组合。合并的捆绑调整框架[27]通过增加基线和提供额外的一致性约束,联合优化了序列中的距离和相机姿势。

        Zhou等人[15]的自我监督运动单目结构(SfM)框架旨在学习:

1、单目深度模型gd:I_{t}-D.预测一个比例模糊的深度 D^{~}\tilde{}=g^{_{d}}(I_{t}(P)),每一个像素p都在目标图片I_{t}

2、自我运动(ege-motion)预测    在目标图片I_{t}和参考图像集I_{t}'间  ,预测一组六自由度刚体变换    用作参考图像,尽管可以使用较大的窗口。

        这种方法的一个局限性是,深度和姿态都被估计到单目SfM管道中的未知比例因子 

        作为中间变量的深度通过约束模型进行图像合成从网络中获得。深度估计是一个不适定问题,因为每个像素可能存在大量不正确的深度,这也可以根据I_{t}它和它I_{t}'之间的相对姿势重新创建新视图

        使用视图合成作为监控技术,我们可以使用它的观点来训练网络−1和It+1用于估计目标图像It在原始鱼眼图像上的外观。一种简单的方法是将原始鱼眼图像纠正为分段或圆柱形投影,并将问题实质上等效于Zhou等人的工作[15]。相比之下,在我们方法的核心,有一种简单而有效的技术来获得尺度感知距离图

        本节首先讨论几何问题,以及如何使用它来获得可微损失。我们描述了尺度感知的FisheyeDistanceNet及其对输出距离估计的影响。此外,我们还对各种损失进行了深入讨论。

A、鱼眼的几何模型

         从相机坐标系到图像坐标系投影

投影函数 Xc=(x,y,z)在相机坐标系下 到 图像坐标系下p=(u,v) ,通过以下方式通过四阶多项式获得:

 

 其中r =\sqrt{x^{2}+y^{2}}(欧氏距离),\Theta是入射角,是入射角到图像坐标下的映射 ,ax,ay是横纵比,cx,cy是原点。具体公式介绍可以看这篇博客,写的非常好鱼眼镜头的成像原理到畸变矫正(完整版)_Maples丶丶的博客-CSDN博客_鱼眼相机去畸变

 从图像坐标反投影到相机坐标

图像像素p=(u,v)的 反投影函数 是D到3D坐标点X=(x,y,z)的距离估计,通过如下步骤获得。我们通过使用畸变系数k1,k2,k3,k4四阶多项式数值运算获得了入射角theta。为了有效训练,我们先算好了并把所有像素坐标存在了lookuptable中。\Theta用来算rc和zc

rc和zc用于从代表3D点的欧氏距离的网络估计距离D。极角和xc、yc坐标可以通过下面这个公式获得

 

 

 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值