一篇晦涩的综述——《GEOMETRIC CONSTRAINTS IN DEEP LEARNING FRAMEWORKS:A SURVEY》（缓慢更新，反复修改）

最新推荐文章于 2024-09-04 14:24:09 发布

m0_74310646

最新推荐文章于 2024-09-04 14:24:09 发布

阅读量1k

点赞数 24

分类专栏：理论文章标签：人工智能深度学习计算机视觉矩阵论文阅读

本文链接：https://blog.csdn.net/m0_74310646/article/details/138140703

版权

理论专栏收录该内容

6 篇文章 0 订阅

订阅专栏

4.2Edge-Aware Smoothness Constraint（边缘平滑约束）

光滑性约束起源于光流估计问题。它最先是由Uras等人提出的。Brox等人进一步解释了光流框架在三种假设下的概念，即灰度值恒定假设、梯度恒定假设和光流平滑假设。

自光流估计问题开始以来，一直假设在给定的照明条件下，像素的灰度值不随位移而改变（公式25）。但在自然场景中，亮度一直在变化。因此，我们允许灰度值的小变化，但还需要找到在灰值变化下保持相对不变的不同标准，即假设在位移下的梯度恒定（公式26）。这引出了第三个假设，即光流场的平稳性。虽然假设在场景中的对象的边界处存在不连续，但在流场[67]中可以假设分段平滑。为了在流量估计中实现这种平滑，对流场做了loss，如公式27所示。

在光流框架中，假设对象随固定的摄像机移动，在MVS框架中，假设对象是固定的，并且摄像机围绕固定点移动，物体的相对运动可以看作是一个移动的摄像机，从而使其成为一个MVS问题，见图4，有了这个假设，可以将光滑度约束应用于深度估计问题。最初，深度估计框架中仅使用一阶平滑约束[27，19，26，64，25，52]。在杨等人之后。[20]在后续工作中，将用于正则化的二阶光滑性约束与一阶光滑性约束相结合：在深度估计框架中，在输入图像的梯度(I)和估计的深度图(D)之间应用平滑约束

一阶光滑性约束（公式28）在自监督/非监督MVS框架中得到了积极的应用[49，52，47，48，44]，赵等人。[65]由于其对称域自适应用于单目深度估计，在两个域中都使用了一阶约束。其他单目深度估计方法[26，64，69，63]也应用公式中定义的一阶光滑度约束。Yang等人[20]仅使用二阶优化（公式29）作为单目视频深度估计框架中的正则化项。最近的MVS框架结合了一阶和二阶公式[22，54，50]，如公式30中所示。

4.3Consistency Regularization（一致性正则化）

基于深度学习的框架固有地存在过度参数化（就是过拟合）的问题，解决这一问题最有效的方法之一是在损失函数中添加正则化。光度学一致性（3.1部分）在像素级别强制几何一致性，但是非常容易受到照明条件变化的影响。许多MVS方法使用不同的一致性正则化技术来有效地处理这个问题[20，19，51]。正如第 4.2 节中所讨论的，一阶和二阶梯度通常用于该任务 [20, 19]，

Garg等人 [19] 认为光度损失在场景的均匀区域中是非信息性的，这导致多个扭曲产生类似的视差结果。它在视差不连续性上使用 L2 正则化（公式31）作为先验。还建议使用[67, 70]中使用的其他鲁棒惩罚函数作为替代正则化项。杨等人 [20] 使用深度二阶梯度 L1 范数的空间平滑度惩罚，（公式32）当没有图像渐变出现时，它鼓励深度值在平面中对齐。

Xu等人[51]将一致性正则化应用于半监督MVS方法。所提出的正则化方法是增广(PˆV)和非增广(PV)样本的预测分布KL散度最小化（公式33，其中pi表示像素坐标）。在K深度假设下，将大小为H×W×K的概率体积PV分成K类逻辑值。

4.4Structural Consistency in 3D Space（3D 空间中的结构一致性）

结构一致性并不局限于2D图像平面，它可以很容易地扩展到相机3D空间或3D点云。在本节中，我们讨论两种这样的方法[52，25]，它们在端到端框架中使用3D空间中的结构一致性以及其他几何约束。

4.4.1Planar Consistency（平面一致性）

平面一致性[52]基于这样的假设：室内场景中的大多数同一颜色区域都是平面区域（平面区域通常具有一致的颜色或纹理特征，这有助于它们被算法或模型识别和分割出来），并且这些区域的深度是连续不间断的。提取此类分段平面区域的过程有三步：给定输入图像I，首先提取关键点。然后使用输入图像中的关键点来提取超像素（超像素是对图像进行分割的结果，它将图像像素组织成一些更大的、相互关联的区域。换句话说，超像素是将图像像素聚合在一起形成的紧密连接的区域，每个超像素通常具有一些共同的特征，例如颜色、纹理或亮度。）。最后，使用分割算法对低梯度区域进行贪婪分割（首先从一个超像素开始，然后根据一定的标准（如梯度大小）逐步分割它，直到满足停止条件。这个过程会产生更多的平面区域，并且可以根据需要进行迭代以获得更精细的分割结果。），以产生更多的平面区域。提取关键点和超像素的方法有很多种，[52]使用直接稀疏里程法[53]来提取关键点，而Felzenszwalb超像素分割[71]用于超像素和平面区域的分割。

图7中的左侧图像显示了在两个室内场景中获取平面区域的步骤。 对于图像I，提取超像素后，应用阈值仅保留大于1000像素的区域。假设大多数平面区域占据较大的像素区域。利用提取的超像素 SPPm 及其相应的深度 D(pn)，我们首先将所有点 pn 反投影到 3D 空间 (p3D n )，公式 34所示。使用 SPPm 的平面参数 Am，在 3D 空间中定义平面方程（公式35）Am 使用两个矩阵计算，Ym = [1, ..., 1]T 和 Pn = [p3D 1 , ..., p3D n ]（公式36），其中 E 是单位矩阵，ϵ 是用于数值稳定性的 a。 使用平面参数，可以计算所有超像素中每个像素的拟合平面深度，以估计平面损失 Lplanar，如式（38）所示。

4.4.2Point Cloud Alignment(点云配准)

Mahjourian et 等人[25]，在视频深度估计的pipeline中，使用了其他方法来配准前后连续两帧 $(Q_{t-1},Q_{t})$ 的3D点云。利用严格点云配准方法ICP[72，73，74]，直接对 $(\hat{Q_{t-1}},Q_{t-1})$ 或者 $(\hat{Q_{t}},Q_{t})$ 做loss，ICP是在计算寻找一个点云之间，点到点距离最小的变换，等等，这里放一个彩蛋！！！

作者原话：It directly compares the estimated point cloud associated with respective frames ( ˆQt−1and ˆQt), i.e. compare ˆQt−1 to Qt−1 or ˆQt to Qt using well know rigid registration methods, Iterative Closest Point(ICP) [72, 73, 74], that computes a transformation to minimize the point-to-point distance between two point clouds.It alternates between computing correspondences between 3D points and best-fit transformation between the two point clouds

现在来梳理一下，给定两个点云，我们固定其中一个，那么另一个点云到这个固定的点云必定存在一个变换！刚刚提到了，点云配准其实就是在找一个最优变换（上面说的点云之间，点到点距离最小的变换），ICP在交替做两件事情，计算一致性与最优变换，每一个iteration都在重复计算一致性，这个最优变换是上一次iteration中计算出来的。

ICP本身不可微，但是他的梯度可以被近似，就是把他计算的乘积作为算法的一部分（个人理解：公式39包含在公式40中，让梯度流过），这样就可以将梯度反向传播，他将两个点云A和B作为输入，然后产生两个输出，一个是最优变换 ${T}'$ ，另一个是残差 $r^{ij}$ （公式39），损失函数如下（公式40），看起来是L1型：

对于视频中的每一帧t，如果估计的点云有较大误差，ICP会产生一个变换 $T_{t}{}'$ ，和 $r_{t}$ ，它可用于向初始对齐方向调整估计，如图7右侧。

先看黄色部分， $(Q_{t-1},Q_{t})$ 两个点云，有一个变换 $T_{t}$ ： $Q_{t}\rightarrow Q_{t-1}$ ， $\hat{Q_{t-1}}$ 是估计的点云，然后往右边看灰色部分，黑色的轮廓是GT，显然 $\hat{Q_{t-1}}$ 和 $Q_{t-1}$ 之间有很大误差，连轮廓都变形了，这个时候ICP产生两个结果 $T_{t}{}'$ ： $\hat{Q_{t-1}}\rightarrow Q_{t-1}$ ，和残差 $r_{t}$ ，然后根据 $T_{t}{}'$ 来调整 $T_{t}$ ，根据残差 $r_{t}$ 调整 $Q_{t}$ ，这里其实也反映了前面那里的意思，交替计算以及更新变换和一致性也就是残差。