MVG读书笔记——单应矩阵估计这件小事（一）

本文链接：https://blog.csdn.net/frozenspring/article/details/77586509

本文详细介绍了在计算机视觉中，如何通过DLT算法和四点法来估计单应矩阵H的参数，包括数学推导和求解过程，以及在多于四点情况下的最小二乘解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参数估计是计算机视觉中经常遇到的一个问题，为较好的估计参数，人们发明了各种各样的算法。这里我们就以单应矩阵H的估计为例，一个个介绍这些常用算法。

DLT算法

DLT（direct linear transform）算法是一个用于解决包含尺度的最小二乘问题的算法。可以解决的问题包括相机内参估计、单应矩阵估计、基础矩阵估计等。

以单应矩阵H的估算为例。由于H为 $3\times3$ 的矩阵，除去尺度的影响之后有8个自由度。需要4对对应点来求解。假设某一对对应点 $\textbf x_i,\textbf x_i'$ ,则
$\textbf x_i'=H\textbf x_i=\begin{bmatrix}h^{1T}\textbf x_i\\h^{2T}\textbf x_i\\h^{3T}\textbf x_i\end{bmatrix}$
其中 $h^{jT}$ 代表H的第j行。

假设 $\textbf x_i'=(x_i',y_i',w_i')^T$ 。对等式叉乘一个 $\textbf x_i'$ 我们得到

$\textbf x'_i \times H\textbf x_i = \begin{bmatrix}y_i'h^{3T}\textbf x_i-w'_ih^{2T}\textbf x_i\\w'_ih^{1T}\textbf x_i-x'_ih^{3T}\textbf x_i \\x'_ih_{2T}\textbf x_i-y_i'h^{1T}\textbf x_i\end{bmatrix} = 0$
即
$\begin{bmatrix}0^T&-w'_i\textbf x^T_i&y_i'\textbf x^T_i \\\ w'_i\textbf x_i^T&0^T&-x'_i\textbf x_i^T \\\ -y'_i\textbf x_i^T&x'_i\textbf x^T_i&0^T\end{bmatrix} \begin{bmatrix}\textbf h^1 \\ \textbf h^2 \\ \textbf h^3\end{bmatrix} =0\tag{1}$
可以记为 $A_ih=0$ 。其中A是一个 $3\times9$ 的矩阵，h是一个9维向量，它的元素对应H中的元素。即
$h=\begin{bmatrix}h^1\\h^2\\h^3\end{bmatrix},H=\begin{bmatrix}h^{1T}\\h^{2T}\\h^{3T}\end{bmatrix}$

可以看到， $A_ih=0$ 是一个关于h的线性方程， $A_i$ 可以由对应点坐标得到。同时A的第三行其实可以由前两行线性表出。由此每对点实际上是给出了H的两个约束。简化A可以得到一个 $2\times 9$ 的矩阵。

四点法

取四对点，将它们的线性方程系数矩阵进行叠加我们就得到了一个 $8\times 9$ （去除线性相关的行）或者 $12\times 9$ 的矩阵，不论如何这个矩阵的秩都为8。于是我们可以从线性方程 $A_ih=0$ 的一维零空间中得到h。这样的h有无穷多，彼此相差一个尺度，一般为求得唯一的解我们假设 $∣ ∣ h ∣ ∣ = 1$ 。

这种解法也称为最小解，因为它使用的点数最少。
###多于四点的情况
当两幅图像中的对应点大于4对时，由于噪声的存在，矩阵A的秩为9，得到的线性方程只有零解。我们称这种方程为超定方程，此时可以求它的最小二乘解。即 $m i n ∣ ∣ A h ∣ ∣$ 。对它的求解同样可以使用SVD分解。这将在后面进一步进行介绍。