一篇晦涩的综述——《GEOMETRIC CONSTRAINTS IN DEEP LEARNING FRAMEWORKS:A SURVEY》(缓慢更新,反复修改)

4.2Edge-Aware Smoothness Constraint(边缘平滑约束)

        光滑性约束起源于光流估计问题。它最先是由Uras等人提出的。Brox等人进一步解释了光流框架在三种假设下的概念,即灰度值恒定假设、梯度恒定假设和光流平滑假设。

        自光流估计问题开始以来,一直假设在给定的照明条件下,像素的灰度值不随位移而改变(公式25)。但在自然场景中,亮度一直在变化。因此,我们允许灰度值的小变化,但还需要找到在灰值变化下保持相对不变的不同标准,即假设在位移下的梯度恒定(公式26)。这引出了第三个假设,即光流场的平稳性。虽然假设在场景中的对象的边界处存在不连续,但在流场[67]中可以假设分段平滑。为了在流量估计中实现这种平滑,对流场做了loss,如公式27所示。

        在光流框架中,假设对象随固定的摄像机移动,在MVS框架中,假设对象是固定的,并且摄像机围绕固定点移动,物体的相对运动可以看作是一个移动的摄像机,从而使其成为一个MVS问题,见图4,有了这个假设,可以将光滑度约束应用于深度估计问题最初,深度估计框架中仅使用一阶平滑约束[27,19,26,64,25,52]。在杨等人之后。[20]在后续工作中,将用于正则化的二阶光滑性约束与一阶光滑性约束相结合:在深度估计框架中,在输入图像的梯度(I)和估计的深度图(D)之间应用平滑约束

一阶光滑性约束(公式28)在自监督/非监督MVS框架中得到了积极的应用[49,52,47,48,44],赵等人。[65]由于其对称域自适应用于单目深度估计,在两个域中都使用了一阶约束。其他单目深度估计方法[26,64,69,63]也应用公式中定义的一阶光滑度约束。Yang等人[20]仅使用二阶优化(公式29)作为单目视频深度估计框架中的正则化项。最近的MVS框架结合了一阶和二阶公式[22,54,50],如公式30中所示。

4.3Consistency Regularization(一致性正则化)

        基于深度学习的框架固有地存在过度参数化(就是过拟合)的问题,解决这一问题最有效的方法之一是在损失函数中添加正则化。光度学一致性(3.1部分)在像素级别强制几何一致性,但是非常容易受到照明条件变化的影响。许多MVS方法使用不同的一致性正则化技术来有效地处理这个问题[20,19,51]。正如第 4.2 节中所讨论的,一阶和二阶梯度通常用于该任务 [20, 19],

        Garg等人 [19] 认为光度损失在场景的均匀区域中是非信息性的,这导致多个扭曲产生类似的视差结果。 它在视差不连续性上使用 L2 正则化(公式31)作为先验。 还建议使用[67, 70]中使用的其他鲁棒惩罚函数作为替代正则化项。 杨等人 [20] 使用深度二阶梯度 L1 范数的空间平滑度惩罚,(公式32)当没有图像渐变出现时,它鼓励深度值在平面中对齐。

        Xu等人[51]将一致性正则化应用于半监督MVS方法。所提出的正则化方法是增广(PˆV)和非增广(PV)样本的预测分布KL散度最小化(公式33,其中pi表示像素坐标)。在K深度假设下,将大小为H×W×K的概率体积PV分成K类逻辑值。

4.4Structural Consistency in 3D Space(3D 空间中的结构一致性)

        结构一致性并不局限于2D图像平面,它可以很容易地扩展到相机3D空间或3D点云。在本节中,我们讨论两种这样的方法[52,25],它们在端到端框架中使用3D空间中的结构一致性以及其他几何约束。

4.4.1Planar Consistency(平面一致性)

        平面一致性[52]基于这样的假设:室内场景中的大多数同一颜色区域都是平面区域(平面区域通常具有一致的颜色或纹理特征,这有助于它们被算法或模型识别和分割出来),并且这些区域的深度是连续不间断的。提取此类分段平面区域的过程有三步:给定输入图像I,首先提取关键点。然后使用输入图像中的关键点来提取超像素(超像素是对图像进行分割的结果,它将图像像素组织成一些更大的、相互关联的区域。换句话说,超像素是将图像像素聚合在一起形成的紧密连接的区域,每个超像素通常具有一些共同的特征,例如颜色、纹理或亮度。)。最后,使用分割算法对低梯度区域进行贪婪分割(首先从一个超像素开始,然后根据一定的标准(如梯度大小)逐步分割它,直到满足停止条件。这个过程会产生更多的平面区域,并且可以根据需要进行迭代以获得更精细的分割结果。),以产生更多的平面区域。提取关键点和超像素的方法有很多种,[52]使用直接稀疏里程法[53]来提取关键点,而Felzenszwalb超像素分割[71]用于超像素和平面区域的分割。

        图7中的左侧图像显示了在两个室内场景中获取平面区域的步骤。 对于图像I,提取超像素后,应用阈值仅保留大于1000像素的区域。 假设大多数平面区域占据较大的像素区域。 利用提取的超像素 SPPm 及其相应的深度 D(pn),我们首先将所有点 pn 反投影到 3D 空间 (p3D n ),公式 34所示。使用 SPPm 的平面参数 Am,在 3D 空间中定义平面方程(公式35)Am 使用两个矩阵计算,Ym = [1, ..., 1]T 和 Pn = [p3D 1 , ..., p3D n ](公式36),其中 E 是单位矩阵,ϵ 是用于数值稳定性的 a。 使用平面参数,可以计算所有超像素中每个像素的拟合平面深度,以估计平面损失 Lplanar,如式(38)所示。 

4.4.2Point Cloud Alignment(点云配准)

        Mahjourian et 等人[25],在视频深度估计的pipeline中,使用了其他方法来配准前后连续两帧(Q_{t-1},Q_{t})的3D点云。利用严格点云配准方法ICP[72,73,74],直接对(\hat{Q_{t-1}},Q_{t-1})或者(\hat{Q_{t}},Q_{t})做loss,ICP是在计算寻找一个点云之间,点到点距离最小的变换,等等,这里放一个彩蛋!!!

        作者原话:It directly compares the estimated point cloud associated with respective frames ( ˆQt−1and ˆQt), i.e. compare ˆQt−1 to Qt−1 or ˆQt to Qt using well know rigid registration methods, Iterative Closest Point(ICP) [72, 73, 74], that computes a transformation to minimize the point-to-point distance between two point clouds.It alternates between computing correspondences between 3D points and best-fit transformation between the two point clouds

现在来梳理一下,给定两个点云,我们固定其中一个,那么另一个点云到这个固定的点云必定存在一个变换!刚刚提到了,点云配准其实就是在找一个最优变换(上面说的点云之间,点到点距离最小的变换),ICP在交替做两件事情,计算一致性与最优变换,每一个iteration都在重复计算一致性,这个最优变换是上一次iteration中计算出来的

        ICP本身不可微,但是他的梯度可以被近似,就是把他计算的乘积作为算法的一部分(个人理解:公式39包含在公式40中,让梯度流过),这样就可以将梯度反向传播,他将两个点云A和B作为输入,然后产生两个输出,一个是最优变换{T}',另一个是残差r^{ij}(公式39),损失函数如下(公式40),看起来是L1型:

对于视频中的每一帧t,如果估计的点云有较大误差,ICP会产生一个变换T_{t}{}',和r_{t},它可用于向初始对齐方向调整估计,如图7右侧。

先看黄色部分,(Q_{t-1},Q_{t})两个点云,有一个变换T_{t}Q_{t}\rightarrow Q_{t-1}\hat{Q_{t-1}}是估计的点云,然后往右边看灰色部分,黑色的轮廓是GT,显然\hat{Q_{t-1}}Q_{t-1}之间有很大误差,连轮廓都变形了,这个时候ICP产生两个结果T_{t}{}'\hat{Q_{t-1}}\rightarrow Q_{t-1},和残差r_{t}然后根据T_{t}{}'来调整T_{t},根据残差r_{t}调整Q_{t},这里其实也反映了前面那里的意思,交替计算以及更新变换和一致性也就是残差

  • 24
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值