VSLAM学习(一) 三维运动、相机模型、SLAM模型

青蛙球

已于 2022-08-03 22:27:11 修改

阅读量1.3k

点赞数

分类专栏： # VSLAM 三维场景文章标签： slam 计算机视觉线性代数

于 2020-11-24 21:16:54 首次发布

本文链接：https://blog.csdn.net/littlefrogyq/article/details/110096761

版权

三维场景同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

VSLAM

4 篇文章 2 订阅

订阅专栏

目录
VSLAM学习(一) 三维运动、相机模型、SLAM模型
 VSLAM学习(二) 非线性优化
 VSLAM学习(三) 单目相机位姿估计
 VSLAM学习(四) Bundle Adjustment

一、三维空间刚体运动

1.1 旋转矩阵

同一向量在不同坐标系下的坐标不同
假如有两组坐标系，他们的基分别为 $(\boldsymbol e_1,\boldsymbol e_2,\boldsymbol e_3)$ 和 $(\boldsymbol e_1',\boldsymbol e_2',\boldsymbol e_3')$ ，向量 $\boldsymbol a$ 在这两组坐标系下的坐标分别为 $(a_1,a_2,a_3)^{\mathrm T}$ 和 $(a_1',a_2',a_3')^{\mathrm T}$ ，那么他们满足

$(\boldsymbol e_1,\boldsymbol e_2,\boldsymbol e_3) \begin{pmatrix} a_1 \\ a_2 \\ a_3 \end{pmatrix}= (\boldsymbol e_1',\boldsymbol e_2',\boldsymbol e_3') \begin{pmatrix} a_1' \\ a_2' \\ a_3' \end{pmatrix}$

即

$\begin{aligned} \boldsymbol a= \begin{pmatrix} a_1 \\ a_2 \\ a_3 \end{pmatrix}&= \begin{pmatrix} \boldsymbol e_1^{\mathrm T} \\ \boldsymbol e_2^{\mathrm T} \\ \boldsymbol e_3^{\mathrm T} \end{pmatrix} (\boldsymbol e_1',\boldsymbol e_2',\boldsymbol e_3') \begin{pmatrix} a_1' \\ a_2' \\ a_3' \end{pmatrix} \\ &=\begin{pmatrix} \boldsymbol e_1^{\mathrm T}\boldsymbol e_1' & \boldsymbol e_1^{\mathrm T}\boldsymbol e_2' & \boldsymbol e_1^{\mathrm T}\boldsymbol e_3' \\ \boldsymbol e_2^{\mathrm T}\boldsymbol e_1' & \boldsymbol e_2^{\mathrm T}\boldsymbol e_2' & \boldsymbol e_2^{\mathrm T}\boldsymbol e_3' \\ \boldsymbol e_3^{\mathrm T}\boldsymbol e_1' & \boldsymbol e_3^{\mathrm T}\boldsymbol e_2' & \boldsymbol e_3^{\mathrm T}\boldsymbol e_3' \end{pmatrix} \boldsymbol a'\overset{\mathrm{def}}{=}\boldsymbol{Ra}' \end{aligned}$

此处的 $\boldsymbol R$ 即为 $\boldsymbol a'$ 坐标系到 $\boldsymbol a$ 坐标系的旋转矩阵
可以看出 $\boldsymbol R\boldsymbol R^{\mathrm T}=\boldsymbol I$ 且 $\mathrm{det}(\boldsymbol R)=1$

1.2 空间坐标变换

三维空间的刚体运动是由旋转与平移组成的，可以表示为

$\boldsymbol{b}=\boldsymbol R_1\boldsymbol a+\boldsymbol t_1$

其中 $\boldsymbol R_1\in \mathbb{R}^{3\times3}$ 是旋转矩阵， $\boldsymbol t_1\in \mathbb{R}^{3}$ 为平移量
但是这种表示方法在多坐标系转换时会很复杂：

$\boldsymbol{b}=\boldsymbol R_1\boldsymbol a+\boldsymbol t_1,\quad\quad \boldsymbol{c}=\boldsymbol R_2\boldsymbol b+\boldsymbol t_2 \\ \Rightarrow \boldsymbol{c}=\boldsymbol R_2(\boldsymbol R_1\boldsymbol a+\boldsymbol t_1)+\boldsymbol t_2$

因此为了避免麻烦，可引入齐次坐标和变换矩阵

$\boldsymbol{b}=\boldsymbol R_1\boldsymbol a+\boldsymbol t_1 \\ \Rightarrow \begin{pmatrix} \boldsymbol{b} \\ 1 \end{pmatrix}= \begin{pmatrix} \boldsymbol{R_1} & \boldsymbol{t_1} \\ \boldsymbol{0}^{\mathrm T} & 1 \end{pmatrix} \begin{pmatrix} \boldsymbol{a} \\ 1 \end{pmatrix} \overset{\mathrm{def}}{=} \boldsymbol{T}_1\begin{pmatrix} \boldsymbol{a} \\ 1 \end{pmatrix} \\ \Rightarrow \tilde{\boldsymbol b}=\boldsymbol{T}_1\tilde{\boldsymbol a}$

那么连续转换就可以表示成

$\tilde{\boldsymbol c}=\boldsymbol{T}_2\tilde{\boldsymbol b} =\boldsymbol{T}_2\boldsymbol{T}_1\tilde{\boldsymbol a}$

1.3 旋转向量与罗德里格斯公式

除了可以用旋转矩阵 $\boldsymbol R$ 来表示一个旋转以外
还可以用一个旋转轴和一个旋转角来表示一个旋转

罗德里格斯公式

旋转轴、角与旋转向量的关系可以由罗德里格斯公式(Rodrigues’s Formula)来表达：

$\boldsymbol R=\cos\theta\boldsymbol I+(1-\cos\theta)\boldsymbol n\boldsymbol n^{\mathrm T}+\sin\theta\boldsymbol n^{\land} \\ or \\ \boldsymbol R=\boldsymbol I+(1-\cos\theta)(\boldsymbol n^{\land})^2+\sin\theta\boldsymbol n^{\land}$

其中 $\theta$ 表示旋转角， $\boldsymbol n$ 表示旋转轴单位向量， $\boldsymbol n^{\land}$ 表示向量 $\boldsymbol n$ 的反对称矩阵(skew-symmetric matrix)或叉积矩阵
也有很多其他地方将反对称矩阵记为 $\boldsymbol n_\times$

补充知识点：叉积矩阵
$\begin{aligned} \boldsymbol a\times\boldsymbol b&= \begin{pmatrix} \boldsymbol{i} & \boldsymbol{j} & \boldsymbol{k} \\ a_1 & a_2 & a_3 \\ b_1 & b_2 & b_3 \end{pmatrix}= \begin{pmatrix} a_2b_3-a_3b_2 \\ a_3b_1-a_1b_3 \\ a_1b_2-a_2b_1 \end{pmatrix} \\ &= \begin{pmatrix} 0 & -a_3 & a_2 \\ a_3 & 0 & -a_1 \\ -a_2 & a_1 & 0 \end{pmatrix}\boldsymbol b \\ &\overset{\mathrm{def}}{=} \boldsymbol a^{\wedge}\cdot\boldsymbol b \end{aligned}$
这里 $\displaystyle\begin{pmatrix} 0 & -a_3 & a_2 \\ a_3 & 0 & -a_1 \\ -a_2 & a_1 & 0 \end{pmatrix}$ 称为向量 $\boldsymbol a$ 的叉积矩阵，或者反对称矩阵，记为 $\boldsymbol a^{\wedge}$ 或者 $\boldsymbol a_\times$

同时我们可以看出叉积矩阵的性质： $(\boldsymbol a^{\land})^2=\boldsymbol a\boldsymbol a^T-\boldsymbol I,\quad(\boldsymbol a^{\land})^3=-\boldsymbol a^{\land}$

由此可见，使用向量 $\boldsymbol \phi=\theta\boldsymbol n$ 同样可以描述一个三维旋转 $\boldsymbol R$
$\boldsymbol \phi$ 与 $\boldsymbol R$ 的具体关系可以学习李代数与李群

特殊地，
当 $\theta$ 很小的时候， $\sin\theta\sim\theta,~~1-\cos\theta\sim o(\theta)$
那么罗德里格斯公式可以表示为：
$\boldsymbol R\approx\boldsymbol I+\theta\boldsymbol n^{\land}= \begin{pmatrix} 1 & -\phi_3 & \phi_2 \\ \phi_3 & 1 & -\phi_1 \\ -\phi_2 & \phi_1 & 1 \end{pmatrix}$

二、相机模型

2.1 针孔相机模型

针孔相机的成像原理就是小孔成像

(图片制作中…)

为了计算方便，一般把成像平面翻转到物体同一侧

在这里插入图片描述

$\frac{Z}{f}=\frac{X}{X'}=\frac{Y}{Y'}$

我们将成像的像素坐标记为 $x,y)^T$
图片中心的像素坐标记为 $c_x,c_y)^T$
成像图片的像素与实际世界长度的比例记为横轴比例： $\alpha$ ，纵轴比例： $\beta$
那么有

$\left\{ \begin{array}{l} x=\alpha X'+c_x \\ y=\beta Y'+c_y \end{array} \right.$

整合之前关系式，记 $f_x=\alpha f,\quad f_y=\beta f$

$\left\{ \begin{array}{l} x=f_x\frac{X}{Z}+c_x \\ y=f_y\frac{Y}{Z}+c_y \end{array} \right.$

整理为齐次坐标

$\begin{pmatrix} x \\ y \\ 1 \end{pmatrix} =\frac{1}{Z} \begin{pmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \end{pmatrix} \begin{pmatrix} X \\ Y \\ Z \end{pmatrix}$

矩阵 $\begin{pmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \end{pmatrix}$ 叫做相机内参矩阵，暂记为 $\boldsymbol K$ ，即

$Z\boldsymbol p_{pixel}=\boldsymbol K\boldsymbol p_{camera}=\boldsymbol K(\boldsymbol R\boldsymbol p_{world}+\boldsymbol t)=\boldsymbol K\boldsymbol T_{cw}\boldsymbol p_{world}$

(第一步和最后一步都隐含了齐次转换，等号并不严谨，理解意思即可)

2.2 图像畸变

图像畸变一般分为径向畸变和切向畸变

2.2.1 径向畸变

在这里插入图片描述

我们使用 $\boldsymbol p'=(x',y')^{\mathrm T}$ 表示发生畸变以后图片上的坐标
用 $\boldsymbol p=(x,y)^{\mathrm T}$ 表示真实应该在的图片上的位置坐标
则

$\left\{ \begin{aligned} x&=x'(1+k_1r^2+k_2r^4+k_3r^6+\dots) \\ y&=y'(1+k_1r^2+k_2r^4+k_3r^6+\dots) \end{aligned} \right.$

其中 $r=\|\boldsymbol p'\|_2=\sqrt{x'^2+y'^2}$
$k$ 为参数，畸变越大的相机需要的参数越多。

2.2.2 切向畸变

沿用上面的符号
$\left\{ \begin{aligned} x&=x'+2p_1x'y'+p_2(r^2+2x'^2) \\ y&=y'+2p_2x'y'+p_1(r^2+2y'^2) \end{aligned} \right.$
$p_1,p_2$ 为参数

2.2.3 混合畸变

其实就是把两种畸变加起来即可
$\left\{ \begin{aligned} x&=x'(1+k_1r^2+k_2r^4+k_3r^6+\dots)+2p_1x'y'+p_2(r^2+2x'^2) \\ y&=y'(1+k_1r^2+k_2r^4+k_3r^6+\dots)+2p_2x'y'+p_1(r^2+2y'^2) \end{aligned} \right.$

三、SLAM模型

3.1 运动观测方程

$\boldsymbol x_k$ 是指 $k$ 时刻的机器人位姿（VSLAM中一般是相机的位姿）
$\boldsymbol z_{k,j}$ 是指 $k$ 时刻对第 $j$ 个路标点的观测值（VSLAM中一般是特征点在照片上的像素点坐标）

$\left \{ \begin{aligned} \boldsymbol x_k&=f(\boldsymbol x_{k-1},\boldsymbol u_k)+\boldsymbol w_k ~~~~~~~~~&···运动方程\\ \boldsymbol z_{k,j}&=h(\boldsymbol y_j,\boldsymbol x_k)+\boldsymbol v_{k,j} &···观测方程 \end{aligned} \right.$
其中， $\boldsymbol u_k$ 是指 $k$ 时刻的运动传感器的读数或者输入
　　　 $\boldsymbol w_k$ 是指 $k$ 时刻的运动噪声
　　　 $\boldsymbol y_j$ 表示第 $j$ 个路标点
　　　 $\boldsymbol v_{k,j}$ 表示 $k$ 时刻第 $j$ 个路标点的观测噪声
　　　 $f (\cdot)$ 是运动函数
　　　 $h (\cdot)$ 是观测函数

3.2 投影模型

观测函数 $h (\cdot)$ 是一个物体从世界到相机图片的投影过程，该过程分为以下几步：

我们先记某一物体在世界坐标系下的坐标为 $\boldsymbol P_w$ ，现在我们要将其投影到相机图片中的像素位置。
再记该物体在相机坐标系下的坐标和归一化坐标分别为 $\boldsymbol P_c'$ 和 $\boldsymbol P_c$

根据三维空间旋转，我们知道

$\boldsymbol P_c'=\boldsymbol R_{wc}\boldsymbol P_w+\boldsymbol t= \begin{pmatrix} X_c \\ Y_c \\ Z_c \end{pmatrix}$

对相机坐标归一化

$\boldsymbol P_c= \begin{pmatrix} u_c \\ v_c \\ 1 \end{pmatrix}= \begin{pmatrix} X_c/Z_c \\ Y_c/Z_c \\ 1 \end{pmatrix}$

在对相机的畸变进行处理（这里以镜像畸变为例）

$\left\{ \begin{aligned} u_c'=u_c(1+k_1r_c^2+k_2r_c^4) \\ v_c'=v_c(1+k_1r_c^2+k_2r_c^4) \end{aligned} \right.$

最后在根据相机内参算出函数 $h (\cdot)$ 最终结果（齐次变换最后一行的1我省去了）：
$\begin{pmatrix} u \\ v \end{pmatrix}= \boldsymbol K \begin{pmatrix} u_c' \\ v_c' \end{pmatrix}= \begin{pmatrix} f_xu_c'+c_x \\ f_yv_c'+c_y \end{pmatrix}$