《计算机视觉之三维重建》笔记1-数学基础

最新推荐文章于 2024-03-11 14:07:37 发布

dragonchow123

最新推荐文章于 2024-03-11 14:07:37 发布

阅读量613

点赞数

分类专栏： 3D 文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/dragonchow123/article/details/124679770

版权

3D 专栏收录该内容

7 篇文章 5 订阅

订阅专栏

2012年就接触了三维视觉和SLAM，monoSLAM，基于EKF的。当时这个方向还没有起来，现在在ARVR、机器人、自动驾驶中都需SLAM技术。疫情出不去，居家办公之余，决定重温一下三维视觉和SLAM这块的知识。
网上看了北邮鲁鹏老师的课程《计算机视觉之三维重建（深入浅出sfm和SLAM核心算法）》，讲的非常好，适合入门和温顾。三维视觉基础部分讲的很细，最后用分别用OpenMVG和ORB-SLAM框架来讲SFM和SLAM。这边整理一下学这门课的笔记（如果之前能够做笔记，现在也不至于网上到处找资料温习，十年换来的教训啊，以后要及时做笔记）

1，数学基础

注：这边的基础是建立在最基本的线性代数上的，矩阵、向量、行列式、秩、单位矩阵、SVD分解等等基本的概念是本节的前提。

1.1 最小二乘

1.1.1 线性方程组

问题：求解线性方程组 $A x = y$
其中 $A=\left( \begin{array}{c} a_{11}&\ldots&a_{1q} \\ \vdots&\ddots&\vdots \\ a_{p1}&\ldots&a_{pq} \end{array}\right) \ x=\left(\begin{array}{l}x_1\\ \vdots\\ x_q\end{array}\right) \ y=\left(\begin{array}{l}y_1\\ \vdots\\ y_p\end{array}\right)$ $\ A$ 列满秩且 $p > q$

方程无解，要求解的是 $x^*=arg\min_x||Ax-y||^2$

解法1

$x^*=(A^TA)^{-1}A^Ty$

证明：
$f(x)=||Ax-y||^2=x^TA^TAx-2y^TAx+y^Ty$
最小值处偏导为0： $\frac{\partial{f}}{\partial{x}}|_{x^*}=2A^TAx^*-2A^Ty=0$
$\Rightarrow x^*=(A^TA)^{-1}A^Ty$
注： $若F(x)=Ax,则\frac{\partial{F}}{\partial{x}}=A^T，\frac{\partial{F}}{\partial{x}}定义为\left( \begin{array}{c} \frac{\partial{F_1}}{\partial{x_1}}&\ldots&\frac{\partial{F_p}}{\partial{x_1}} \\ \vdots&\ddots&\vdots \\ \frac{\partial{F_1}}{\partial{x_q}}&\ldots&\frac{\partial{F_p}}{\partial{x_q}} \end{array}\right)$

解法2

$x^*=Vb$
其中：奇异值分解 $A=UDV^T$ ， $\bar{x}=V^Tx,\ \bar{y}=U^Ty,\ b_i=\bar{y_i}/d_i,\ d_i=D_{ii}$ 为对角矩阵 $D$ 的对角

证明：
$f(x)=||Ax-y||^2\\=||UDV^Tx-UU^Ty||^2\\=||U||^2||D\bar{x}-\bar{y}||^2\\=\sum_{i=1}^{q}(d_i\bar{x}_i-\bar{y}_i)^2+\sum_{i=q+1}^{p}\bar{y}_i^2$
求最小值，则： $\bar{x}_i=\bar{y}_i/d_i=b_i$ ，即 $\bar{x}=b$ ，所以 $V^Tx=b$
得到： $x = V b$

解法3

无约束优化问题，用梯度下降、牛顿法、LM求解

1.1.2 齐次线性方程组

$A x = 0$
方程无非0解，要求解的是约束线性优化问题：
$x^*=arg\min_x||Ax||^2\\s.t.||x||^2=1$

解法

$x^*=V\left(\begin{array}{l}0\\ \vdots\\0\\1\end{array}\right)$ 为 $V$ 的最后一列

证明：
$f(x)=||Ax||^2\\=||UDV^Tx||^2\\=||D\bar{x}||^2\\=\sum_{i=1}^{q}(d_i\bar{x}_i)^2\\=(d_1^2,\cdots,d_q^2) \left(\begin{array}{l}\bar{x}_1^2\\\vdots\\\bar{x}_q^2\end{array}\right)$
因为 $x||^2=1$ ，所以 $||\bar{x}||^2=1$
所以，要使 $f (x)$ 最小，则 $\bar{x}=\left(\begin{array}{l}0\\ \vdots\\0\\1\end{array}\right)$ ，进而得到 $x^*$

1.1.3 非线性方程组

$\left\{\begin{array}{c}f_1(x_1,\cdots,x_q)=0\\ f_2(x_1,\cdots,x_q)=0\\ \vdots\\ f_p(x_1,\cdots,x_q)=0 \end{array}\right.$
转化为优化问题： $x^*=arg\min_x\frac{1}{2}\sum_i||f_i(x)||^2$ ，用梯度下降、牛顿法、LM求解

1.2 牛顿法与LM法

问题：求 $x^*=\argmin_xf(x)$ 对 $f (x)$ 进行泰勒展开：
$f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{1}{2}f''(x_0)(x-x_0)^2+\cdots$

梯度下降

$x_{n+1}=x_n-\alpha f'(x_n)$

证明
用泰勒展开的一阶导数来近似：
$f(x_{n+1})=f(x_n)+f'(x_n)(x_{n+1}-x_n)=f(x_n)-\alpha(f'(x_n))^2$
当 $x_n$ 不是最小值时 $f'(x_n)\ne0$ ，所以 $f(x_{n+1})<f(x_n)$ ，在逼近最优值 $x^*$ 。

牛顿法

用泰勒展开的二阶导数来近似： $f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{1}{2}f''(x_0)(x-x_0)^2$ 求导得： $f'(x)=f'(x_0)+f''(x_0)(x-x_0)$ 最小值处导数为 $f^{'} (x) = 0$ ： $x=x_0-(f''(x_0))^{-1}f'(x_0)$ 如果 $x$ 是多维向量，则 $f^{''} (x)$ 为 $f (x)$ 的Hessian矩阵 $H(x)=\left(\begin{array}{c} \frac{\partial^2f}{\partial^2 x_1}&\cdots&\frac{\partial^2f}{\partial x_1\partial x_n}\\ \vdots&\ddots&\vdots\\ \frac{\partial^2f}{\partial x_n\partial x_1}&\cdots&\frac{\partial^2f}{\partial^2 x_n} \end{array}\right)$ 所以，牛顿法的迭代公式为： $x_{n+1}=x_n-H^{-1} f'(x_n)$

高斯牛顿法

牛顿法中 $H$ 矩阵要求二阶导数，实际中很难操作，用雅可比矩阵来代替 $H\approx J^TJ$ ： $x_{n+1}=x_n-(J^TJ)^{-1} f'(x_n)$ 这边的 $J(x)=\triangledown f(x)=f'(x)=(\frac{\partial f}{\partial x_1},\cdots,\frac{\partial f}{\partial x_n})^T$

高斯牛顿这边的近似 $H$ 矩阵不满秩，无法求逆，其实高斯牛顿法不是这样用的，常用在最小二乘问题中，把这边的 $f$ 变成多个方程的 $f_i$ ，雅可比矩阵 $J$ 就能是满秩了。

LM

（Levenberg-Marquadt）加一个缩放的单位矩阵 $\mu I$ ，防止 $J^TJ$ 不满秩：
$x_{n+1}=x_n-(J^TJ+\mu I)^{-1} f'(x_n)$ 相当于梯度下降和高斯牛顿的混合。在最小二乘问题中，同高斯牛顿法，这边的 $J$ 可以换成向量函数 $f_i)$ 对 $x$ 的雅可比矩阵。

1.3 变换

1.3.1 2D变换

$\boldsymbol{x}=\left(\begin{array}{c}x\\y\\1\end{array}\right)，\boldsymbol{x'}=\left(\begin{array}{c}x'\\y'\\1\end{array}\right)$

欧式变换
$\boldsymbol{x'}=\left(\begin{array}{c}R&t\\0&1\end{array}\right)\boldsymbol{x}$ $R=\left(\begin{array}{c} \cos\theta&-\sin\theta\\ \sin\theta&\cos\theta\\ \end{array}\right)$
相似变换
$\boldsymbol{x'}=\left(\begin{array}{c}sR&t\\0&1\end{array}\right)\boldsymbol{x}$
仿射变换
$\boldsymbol{x'}=\left(\begin{array}{c}A&t\\0&1\end{array}\right)\boldsymbol{x}$
透视变换
$\boldsymbol{x'}=\left(\begin{array}{c}A&t\\v^T&1\end{array}\right)\boldsymbol{x}$

1.3.2 3D变换

变换公式形同2D变换，维度由2维拓展到3维即可。

1.3.3 3D欧式变换

三维空间的欧式变换（正交变换），有两种几何意义（表示）：

欧拉表示法

分别围绕 $X, Y, Z$ 轴的旋转 $\alpha,\beta,\gamma$ 角度，可以得到欧式变换：
$R=R_x(\alpha)R_y(\beta)R_z(\gamma)$ 其中 $R_x(\alpha)=\left(\begin{array}{c} 1&0&0\\ 0&\cos\alpha&-\sin\alpha\\ 0&\sin\alpha&\cos\alpha\\ \end{array}\right)$ $R_y(\beta)=\left(\begin{array}{c} \cos\beta&0&\sin\beta\\ 0&1&0\\ -\sin\beta&0&\cos\beta\\ \end{array}\right)$ $R_z(\gamma)=\left(\begin{array}{c} \cos\gamma&-\sin\gamma&0\\ \sin\gamma&\cos\gamma&0\\ 0&0&1 \end{array}\right)$

四元数

可以围绕单位向量 $u=(u_x,u_y,u_z)$ 旋转 $\theta$ 角度，表示为 $R_u(\theta)$
用四元数表示： $q=(x,y,z,w)=(u_x\sin(\theta/2),u_y\sin(\theta/2),u_z\sin(\theta/2),\cos(\theta/2))$ 则欧式变换可表示为：
$R=R_u(\theta)=R_q= \left(\begin{array}{c} 1-2y^2-2z^2&2xy-2wz&2xz+2wy\\ 2xy+2wz&1-2x^2-2z^2&2yz-2wx\\ 2xz-2wy&2yz+2wx&1-2x^2-2y^2\\ \end{array}\right)$ 四元数和旋转有篇知乎文章讲的很详细。

1.4 坐标系

Alt 坐标系变换
点 $P$ 在相机坐标系 $O i j k$ 下的坐标表示为 $P = (x, y, z)$ ，在世界坐标系 $O_wi_wj_wk_w$ 下的坐标表示为 $P_w=(x_w,y_w,z_w)$ ，相机坐标系到世界坐标系的变化为 $R, T$ ，则有：
$P=RP_w+T$

证明：
$R, T$ 的涵义：坐标系 $O i j k$ 先旋转 $R$ ，再平移 $T$ ，就变成坐标系 $O_wi_wj_wk_w$ 。即 $i_w,j_w,k_w)=(i,j,k)R$ ，点 $O_w$ 在 $O i j k$ 下的坐标为 $T$ 。 $i, j, k$ 分别为坐标系的一组基，即 $X, Y, Z$ 轴的单位向量。
$P$ 在一个坐标系 $O i j k$ 下的坐标表示为 $P = (x, y, z)$ 只是简写，完整的表示为： $P=(i,j,k)\left(\begin{array}{l}x\\y\\z\end{array}\right)$ 。
所以：
$\overrightarrow{OP}=(i,j,k)\left(\begin{array}{l}x\\y\\z\end{array}\right)$
$\overrightarrow{O_wP}=(i_w,j_w,k_w)\left(\begin{array}{l}x_w\\y_w\\z_w\end{array}\right)=(i,j,k)R\left(\begin{array}{l}x_w\\y_w\\z_w\end{array}\right)$
$\overrightarrow{OO_w}=(i,j,k)T$
由 $\overrightarrow{OP}=\overrightarrow{OO_w}+\overrightarrow{O_wP}$ ，可得：
$\left(\begin{array}{l}x\\y\\z\end{array}\right)=R\left(\begin{array}{l}x_w\\y_w\\z_w\end{array}\right)+T$

推论：
1， $R$ 的列向量分别表示i_w,j_w,k_w在相机坐标系下的坐标
2， $R^T$ 的列向量分别表示i,j,k在世界坐标系下的坐标
3， $O_w$ 在相机坐标系下的坐标为 $T$
4， $O$ 在世界坐标系下的坐标为 $R^TT$
所以，相机在世界坐标系中的位姿表示为： $R^T$ 和 $R^TT$