PnP学习

最新推荐文章于 2022-05-05 11:53:22 发布

Gone_float

最新推荐文章于 2022-05-05 11:53:22 发布

阅读量316

点赞数

分类专栏：数学基础文章标签：线性代数

本文链接：https://blog.csdn.net/qq_38766208/article/details/120075709

版权

数学基础专栏收录该内容

18 篇文章 0 订阅

订阅专栏

这篇博客介绍了PnP问题，即Perspective-n-Point方法，用于解决3D到2D点对的运动估计。在视觉里程计中，PnP能有效估计相机位姿，尤其是结合3D点信息时。直接线性变换(DLT)作为求解PnP的一种方式，通过构建线性方程组来估计相机的旋转和平移。当匹配点数量超过六对时，可以通过最小二乘法进一步优化解。DLT虽然简单但可能不满足旋转矩阵的约束，需要额外步骤修正。

摘要由CSDN通过智能技术生成

$P n P$ (Perspective-n-Point) 是求解 $3 D$ 到 $2 D$ 点对运动的方法。它描述了当我们知道 $n$ 个 $3 D$ 空间点以及它们的投影位置时，如何估计相机所在的位姿。前面已经说了, $2 D - 2 D$ 的对极几何方法需要八个或八个以上的点对（以八点法为例）, 且存在着初始化、纯旋转和尺度的问题。然而, 如果两张图像中, 其中一张特征点的 $3 D$ 位置已知, 那么最少只需三个点对（需要至少一个额外点验证结果）就可以估计相机运动。特征点的 $3 D$ 位置可以由三角化, 或者由 RGB-D 相机的深度图确定。因此, 在双目或 RGB-D 的视觉里程计中, 我们可以直接使用 $P n P$ 估计相机运动。而在单目视觉里程计中, 必须先进行初始化, 然后才能使用 $P n P$ 。 $3 D - 2 D$ 方法不需要使用对极约束, 又可以在很少的匹配点中获得较好的运动估计，是最重要的一种姿态估计方法。
$P n P$ 问题有很多种求解方法,例如用三对点估计位姿的 $P 3 P$ , 直接线性变换 $D L T$ , $E P n P$ (Efficient PnP), $U P n P$ 等等)。此外，还能用非线性优化的方式, 构建最小二乘问题并迭代求解, 也就是万金油式的光束法平差(Bundle Adjustment, BA)。我们先来看 $D L T$ , 然后再讲 Bundle Adjustment。

7.7.1 直接线性变换 (DLT)
我们考虑这样一个问题：已知一组3D点的位置，以及它们在某个相机的投影位置，求该相机的位姿。这个问题也可以用于求解给定地图和图像时的相机状态问题。如果把3D点看成在另一个相机坐标系中的点的话，则也可以用来求解两个相机的相对运动问题。我们从简单的问题出发。

考虑某个空间点 $P$ ，它的齐次坐标为 $P = (X, Y, Z, 1)^T$ 。在图像 $I 1$ 中，投影到特征点 $x1 = (u1, v1, 1)^T$ （以归一化平面齐次坐标表示）。此时相机的位姿 $R, t$ 是未知的。与单应矩阵的求解类似，我们定义增广矩阵 $[R ∣ t]$ 为一个 3 × 4 的矩阵，包含了旋转与平移信息。我们把它的展开形式列写如下：

$s\left(\begin{array}{c}u_{1} \\ v_{1} \\ 1\end{array}\right)=\left(\begin{array}{cccc}t_{1} & t_{2} & t_{3} & t_{4} \\ t_{5} & t_{6} & t_{7} & t_{8} \\ t_{9} & t_{10} & t_{11} & t_{12}\end{array}\right)\left(\begin{array}{c}X \\ Y \\ Z \\ 1\end{array}\right)$

用最后一行把 $s$ 消去，得到两个约束：

$u_{1}=\frac{t_{1} X+t_{2} Y+t_{3} Z+t_{4}}{t_{9} X+t_{10} Y+t_{11} Z+t_{12}}$

$v_{1}=\frac{t_{5} X+t_{6} Y+t_{7} Z+t_{8}}{t_{9} X+t_{10} Y+t_{11} Z+t_{12}}$

为了简化表示，定义 $T$ 的行向量：

$\boldsymbol{t}_{1}=\left(t_{1}, t_{2}, t_{3}, t_{4}\right)^{T}, \boldsymbol{t}_{2}=\left(t_{5}, t_{6}, t_{7}, t_{8}\right)^{T}, \boldsymbol{t}_{3}=\left(t_{9}, t_{10}, t_{11}, t_{12}\right)^{T}$

于是有：

$\boldsymbol{t}_{1}^{T} \boldsymbol{P}-\boldsymbol{t}_{3}^{T} \boldsymbol{P} u_{1}=0$

和

$\boldsymbol{t}_{2}^{T} \boldsymbol{P}-\boldsymbol{t}_{3}^{T} \boldsymbol{P} v_{1}=0$

请注意 $t$ 是待求的变量，可以看到每个特征点提供了两个关于 $t$ 的线性约束。假设一共有 $N$ 个特征点，可以列出线性方程组：
(第一个点，第二个点，第三个点……)
$\left(\begin{array}{ccc}P_{1}{ }^{T} & 0 & -u_{1} P_{1}^{T} \\ 0 & P_{1}^{T} & -v_{1} P_{1}^{T} \\ P_{2}^{T} & 0 & -u_{1} P_{2}^T \\ 0 & P_{2}^{T} & -u_{1} P_{2}^{T} \\ \vdots & \vdots & \vdots \\ {P} _N^{T} & 0 & -u_{N} P_{N}^{T}\\ 0 & {P} _N^{T} & -v_{N} P_{N}^{T}\end{array}\right)\left(\begin{array}{c}t_{1} \\ t_{2} \\ t_{3}\end{array}\right)=0$

由于 $t$ 一共有 12 维，因此最少通过六对匹配点，即可实现矩阵 T 的线性求解，这种方法（也）称为直接线性变换（Direct Linear Transform， DLT）。当匹配点大于六对时，（又）可以使用 SVD 等方法对超定方程求最小二乘解。

在 DLT 求解中，我们直接将 T 矩阵看成了 $12$ 个未知数，忽略了它们之间的联系。因为旋转矩阵 $\boldsymbol{R} \in SO(3)$ ，用 DLT 求出的解不一定满足该约束，它是一个一般矩阵。平移向量比较好办，它属于向量空间。对于旋转矩阵 R，我们必须针对 DLT 估计的 T 的左边 $3 \times 3$ 的矩阵块，寻找一个最好的旋转矩阵对它进行近似。这可以由 $Q R$ 分解完成, 也可以像这样来计算：
$\boldsymbol{R} \leftarrow\left(\boldsymbol{R} \boldsymbol{R}^{\mathrm{T}}\right)^{-\frac{1}{2}} \boldsymbol{R}$
相当于把结果从矩阵空间重新投影到 SE(3) 流形上，转换成旋转和平移两部分