Computing Range Flow from Multi-modal

Dorwin666

于 2018-09-20 10:55:34 发布

阅读量219

点赞数

Computing Range Flow from Multi-modal

主要成果1、与之前的方法相比，设计了一个有效减少了图像无效测量区域的配准算法。
阔展了现有场景流计算方法来处理无效的和不稳定的深度估计。

Kinect的局限性：从计算机视觉方面来说，主要困难来源于Kinect设备中的计算无法接触，尤其是它如何保存图像边缘平滑和对深度图的放大，这些在计算中都是无法规避的，并且对噪声的性质和相关性都有很大影响。
1、有些区域所投影的红外光被前景遮挡，造成这些区域的深度无法被测量。
2、深度值在边界区域不稳定可也不精确
3、图像边界没有很好地对齐
4、两个传感器在焦距和光轴有轻微的不同

Kinect相机校准和数据对齐数据对齐：我们的方法基于[4]（先前方法），但是从深度图像到彩色图像执行更复杂的逆映射 - 而[4]使用彩色图像到深度图像的直接映射。我们的方法的优点是，我们仍然能够为具有无效深度值的区域计算至少xy-flow，而如果应用原始对齐方法，则所有信息在这些区域中丢失。图2显示了两种方法的示例。

1、相机校准：在第一步中，我们执行摄像机的立体校准。在第一步中，我们执行摄像机的立体校准。由于相机校准是一项常见任务，因此我们不会详细讨论此部分。我们只使用标准的棋盘格目标，具有良好的红外反射特性和红外光谱中的额外照明，并应用[7]中提供的opencv标准立体校准程序。

2、数据对齐：实际的数据对齐算法是基于原始的假设Kinect提供的深度值与彩色图像中像素之间的逐点差异d及其对应的原始深度值z线性相关。在校准过程中检查棋盘角的位置使用PCA来获得该线性图d（z）= a·z + b。（PCA是Principal Component Analysis的缩写，也就是主成分分析。也是用于降维常用的一中方法。PCA 主要用于数据降维，对于高维的向量，PCA 方法求得一个 kk 维特征的投影矩阵，这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交，特征向量都是正交的。通过求样本矩阵的协方差矩阵，然后求出协方差矩阵的特征向量，这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。
数据降维的目的：
减少预测变量的个数，
确保这些变量是相互独立的，
提供一个框架来解释结果。
降维后的特征向量减少冗余，具有低相关性等性质，在某些程度上反应了特征的本质，且在以后做分类预测等时，不容易陷入过拟合）
原始方法使用视差场d来对齐RGBD图像容易造成彩色图像的变形：

（1）
此处是变形的彩色图像。由于x + d可以是分数像素，因此必须插入I的整数像素值。对于Z（x，y）没有有效深度值的区域，不能计算的值。这些区域是可见的。在图中所示的手的阴影下。它们必须被标记，例如将颜色设置为黑色。因此，这些区域中的彩色图像信息完全丢失。因此，我们建议不要修改彩色图像，而是要修改反转映射并将深度图像与彩色图像对齐。为了做到这一点，我们必须计算逆视差场D *（x，y）

在此，我们考虑该方法的一个特例，因为已知视差仅限于x方向（即流h的y分量消失）。使用这种简化，可以重新构造[9]的思想（对于x方向上的第i个像素，即位置（xi，y））。

此处的权重函数p是用

半径r指定每个像素的影响区域。无效深度值必须从求和中排除。对于某些目标位置，分母可能变得非常小（即，如果深度值缺失会导致该位置变形）。在这种情况下，我们也将D *（xi，y）标记为无效。使用D *，我们以与（1）中相似的方法计算深度图（x，y）与I（x，y）的对齐：

图2显示了我们提出的方法与纯立体校准方法的定性比较。我们的校准/对齐软件将与本文一起作为开源出版（链接：[1]）。
对准数据的另一种方法可以是使用从校准步骤中已知的投影矩阵重新投影从IR相机给出的3D数据点。这里的问题是原始深度值（由设备给出）不是真实的z坐标值，而是与点图案差异成比例。
提出了几种不同的方法用于从该原始深度计算z值。我们提出的方法使用原始深度值与图像之间的像素偏移成正比的事实，因此避免了计算精确像素z-坐标的问题。

场景流
（14）场景流是光流的2.5D扩展的既定术语，描述图像序列中的局部3D运动。在数学上，场景流是在2D图像平面上定义的3D矢量场hR，唧：
hR : R2 → R3 hR(x, y) = (u, v, w)T h(x, y) = (u, v)T

为简单起见，我们将所提出的方法建立在全局光流的精细标准方法上[12]（它本身是对Horn和Schunk [5]的经典流场论文的重新解释）。
应该注意的是，我们提出的算法（参见4.1节）也应该适用
大多数其他全球方法（如[8]或[13]）。但是，由于我们专注于Kinect数据的范围扩展，因此我们要尽可能简化2D术语。此外，大多数“先进”的技术都专注于提高亚像素精度，考虑到真实世界Kinect数据的准确性，这种技术不太可能达到理想的效果。

∇I · (u, v)T + It = 0 ⇔ (Ix, Iy, 0, It) (u, v, w, 1)T = 0 (7)

其中I是2D图像数据（这里：转换为灰度的彩色图像），索引表示对指定变量的派生。
如[11]所提出的，可以为深度数据Z制定类似的术语，在深度方向w上添加运动：

∇Z · (u, v)T + w + Zt = 0 ⇔ (Zx, Zy, 1, Zt) · (u, v, w, 1)T = 0 (8)

该等式称为（7）中的2D项。和（8）中的深度项基于相同的原理。场景流运动约束（RFMC）。可以看出，等式
所以场景流算法都可以使用任何光流的算法加包含等式（8）额外的数据项来计算。
无效深度值是通过删除处理
，只使用该位置的彩色值计算。由于用于计算深度图像的导数的线性滤波器通常具有3个像素的宽度（Sobel或Scharr滤波器[10]），因此必须扩展排除区域，例如，使用形态膨胀算子。2个像素的半径显示就足够了。在深度值排除区域中，通过场景流的正则化从有效邻域中插入w的值。
强正则化是平滑运动场的，但是也会造成运动边界的模糊，因为运动边界往往和深度图像对应，估计结果可以通过排除掩码的方法来进一步提升。这种自适应正则化的方法是使用深度信息的另一个优点。

算法摘要

我们的方法的最终实现是在两个不同迭代层次的标准金字塔方案中实现的。外部迭代执行了多尺度图像金字塔。
内部迭代（算法的第10行）重新计算给定输入图像对（I1，I2，Z1，Z2）上流量，其中第二帧已经在之前迭代计算的流量的过程中发生了形变。
这是通过最小化以下能量函数来完成的：

(Ixu + Iyv + It)2 + λZ(x, y)(Zxu + Zyv + w + Zt)2 + λR(x, y)(|∇u|2 + |∇v|2 + |∇w|2)_x0005_dx dy (9)