ICP算法思想与推导详解——什么东西“最近点”，又“迭代”了什么？

青蛙球

已于 2022-09-19 20:42:11 修改

阅读量6.5k

点赞数 36

分类专栏：三维场景文章标签：算法机器学习人工智能

于 2022-08-05 19:34:12 首次发布

本文链接：https://blog.csdn.net/littlefrogyq/article/details/126138732

版权

三维场景专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了ICP算法在三维重建和视觉SLAM中的应用，包括点云匹配原理、步骤过程，以及SVD和非线性优化方法求解R和t。重点讲解了如何通过迭代找到最佳旋转和平移，并探讨了多种优化策略和问题处理技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、什么是ICP

ICP的全称是 iterative closest point —— 迭代最近点。它是一种点云匹配的算法。

在三维重建或者视觉Slam场景中，经常需要确定某一时刻的相机位姿。
相机在运动过程中，不同时刻对同一物体获取的三维点云信息是不同的。
此时我们可以通过点云的对应点在两个时刻间差异来计算相机位姿的改变。
对位姿、相机模型等不了解的可以去看我的VSLAM笔记-相机模型。

简而言之，ICP目的就是为了使用某种方法求出两组点云之间的三维旋转与平移矩阵 $\boldsymbol T$

二、算法简介

2.1 场景

通常，我们可以使用一组空间点云数据来表示某一物体，记为 $\{\boldsymbol p_i\}$
在某一时刻，该物体发生了移动与旋转，此时他的空间坐标发生了变化，也就是点云数据 $\{\boldsymbol p_i\}$ 的坐标全都发生了变化，新点云坐标记为 $\{\boldsymbol q_i\}$
那么通过学习刚性物体的旋转平移我们可以知道， $\boldsymbol p_i$ 和 $\boldsymbol q_i$ 之间存在一定关系：
$\boldsymbol q_i = \boldsymbol R\boldsymbol p_i + \boldsymbol t~,~~~~~~~~i=1,2,\dots,n \\ 或 \\ \bar {\boldsymbol q}_i = \boldsymbol T \bar{\boldsymbol p}_i~,~~~~~~~~i=1,2,\dots,n$

2.2 步骤过程

ICP算法的大致分为两步：

匹配两个点云 $\boldsymbol P$ 与 $\boldsymbol Q$ ，找出对应的点
求 $\boldsymbol R,\ \boldsymbol t$

那么此时需要解决的两个问题就是：

问题① 如何查找两个点云之间的相匹配的对应点？
问题② 使用什么方法来求出 $\boldsymbol R,\ \boldsymbol t$

对于问题①

从算法名 “迭代最近点” 我们不难看出，此算法解决第一个问题的基本思想是使用距离最近的点作为匹配点。
也就是遍历点云 $\boldsymbol P$ 中的所有点，计算它们与点云 $\boldsymbol Q$ 中每个点的距离，将距离最少的点作为其对应点。

例如查找 $\boldsymbol p_5$ 的对应点就是计算它与所有 $\boldsymbol q$ 的距离，找出距离最近的那个 $\boldsymbol q$ ：
$\min_{\boldsymbol q_i} \Big\{dist(\boldsymbol p_5, \boldsymbol q_i)\Big\}$

时间复杂度为 $O(n^2)$

找到对应点后，就可以使用一定方法来找出最优的 $\boldsymbol R,\ \boldsymbol t$

注意，这里之所以说是 “最优的” $\boldsymbol R,\ \boldsymbol t$ 值，是因为使用最近点匹配方法找出的对应点往往不是真实对应的点：
在这里插入图片描述

求出来的 $\boldsymbol R,\ \boldsymbol t$ 自然也不会是最终真正的值。

所以这个时候我们就需要“迭代”，第一次计算得出了一组当前最优的 $\boldsymbol R,\ \boldsymbol t$ 值以后，可以将点云 $\boldsymbol P$ 经过 $\boldsymbol R\boldsymbol p + \boldsymbol t$ 移动到 $\boldsymbol P'$ 的位置（就离目标点云 $\boldsymbol Q$ 近了一些），此时，再对新的点云 $\boldsymbol P'$ 和点云 $\boldsymbol Q$ 重复上面的两个步骤即可。

每次迭代都可以式 $\boldsymbol P$ 更加靠近 $\boldsymbol Q$ 直到收敛为止。

对于问题②

通过刚刚分析我们知道：
$\boldsymbol q_i \neq \boldsymbol R\boldsymbol p_i + \boldsymbol t$
实际上：
$\boldsymbol q_i = \boldsymbol R\boldsymbol p_i + \boldsymbol t + \boldsymbol e_i$
（此处是以 point-to-point 方法为例构造误差函数，其中 $\boldsymbol e_i$ 表示误差）

那么现在的任务其实就是使误差最小，即

$\min_{\boldsymbol R,\boldsymbol t}\sum^n_{i=1}|\boldsymbol q_i - \boldsymbol R\boldsymbol p_i - \boldsymbol t| \\ 或者 \\ \min_{\boldsymbol R,\boldsymbol t}\frac{1}{2}\sum^n_{i=1}\|\boldsymbol q_i - \boldsymbol R\boldsymbol p_i - \boldsymbol t\|^2$
再使用最小二乘等方式求解 $\boldsymbol R,\boldsymbol t$ 即可

这里讲的是最基本的ICP算法的操作方法
其实对于上面两个问题的处理方法还有很多。

例如
对于问题①，除了使用最近点匹配，还可以使用投影坐标作为对应点匹配，或者融合RGB图像使用特征提取的方法来匹配等等；
对于问题②，常见的ICP构造误差函数的方法有Point-to-Point, Point-to-Plane, Plane-to-Plane等。

另外还有：

点太多了是不是可以采样选取？要如何采样？
是否可以对这些点添加一些权重来提高收敛速度？
有些差异过大的匹配点是否可以剔除掉？如何剔除？
……

等等许多问题也是很值得思考的。

ICP感觉是一个极其耗时的过程，所以按照使用场景选对每一步的方法很重要~
前几天刚看的 Kinect Fusion 使用的就是 投影坐标对应点匹配 + Point-to-Plane 方法来求解ICP的

三、 $\boldsymbol R,\boldsymbol t$ 求解推导

常用的求解方法有两种：

SVD求解法
非线性优化

下面以 Point-to-Point ICP为例推导求解过程

2.1 使用SVD方法求解最优R与t

Point-to-Point 优化误差目标为：
$\arg\min_{\boldsymbol R,\boldsymbol t}\frac{1}{2}\sum^n_{i=1}\|\boldsymbol q_i - \boldsymbol R\boldsymbol p_i - \boldsymbol t\|^2$

提一句：Point-to-Plane的目标函数为 $\arg\displaystyle\min_{\boldsymbol R,\boldsymbol t}\frac{1}{2}\sum^n_{i=1}\|(\boldsymbol q_i - \boldsymbol R\boldsymbol p_i - \boldsymbol t)\cdot\boldsymbol n_i\|^2$ ，其中 $\boldsymbol n_i$ 为法向量。有兴趣的可以自己查一下资料看看推导过程。

先求 $\boldsymbol t$

记：
$\boldsymbol e=\frac{1}{2}\sum^n_{i=1}\|\boldsymbol q_i - \boldsymbol R\boldsymbol p_i - \boldsymbol t\|^2$
对 $\boldsymbol t$ 求导：
$\frac{\partial\boldsymbol e}{\partial\boldsymbol t}=-\Big(\sum^n_{i=1}\boldsymbol q_i - \sum^n_{i=1}\boldsymbol R\boldsymbol p_i - n\boldsymbol t\Big)$
令 $\frac{\partial\boldsymbol e}{\partial\boldsymbol t}=0$ 得到：
$\hat{\boldsymbol t}=\frac{1}{n}\sum^n_{i=1}\boldsymbol q_i - \boldsymbol R\cdot\frac{1}{n}\sum^n_{i=1}\boldsymbol p_i$
分别记 $\boldsymbol\mu_q=\displaystyle\frac{1}{n}\sum^n_{i=1}\boldsymbol q_i~, ~\boldsymbol\mu_p=\displaystyle\frac{1}{n}\sum^n_{i=1}\boldsymbol p_i$ （很多地方也把它们称作点云的质心），那么上式就变为：
$\hat{\boldsymbol t}=\boldsymbol\mu_q - \boldsymbol R\boldsymbol\mu_p$

再求 $\boldsymbol R$

将 $\hat{\boldsymbol t}$ 带入原误差函数中得：
$\begin{aligned} \boldsymbol e&=\frac{1}{2}\sum^n_{i=1}\|\boldsymbol q_i - \boldsymbol R\boldsymbol p_i - (\boldsymbol\mu_q - \boldsymbol R\boldsymbol\mu_p)\|^2 \\ &=\frac{1}{2}\sum^n_{i=1}\| \textcolor{#0033CC}{\boldsymbol q_i - \boldsymbol\mu_q} - \boldsymbol R( \textcolor{#BB0000}{\boldsymbol p_i - \boldsymbol\mu_p})\|^2 \end{aligned}$

再分别记 $\boldsymbol x_i=\textcolor{#0033CC}{\boldsymbol q_i - \boldsymbol\mu_q} ~, ~\boldsymbol y_i=\textcolor{#BB0000}{\boldsymbol p_i - \boldsymbol\mu_p}$ （相当于是每个点与其质心的距离，去中心化的操作）得：
$\boldsymbol e=\frac{1}{2}\sum^n_{i=1}\| \boldsymbol x_i - \boldsymbol R\boldsymbol y_i\|^2$
所以：
$\begin{aligned} \hat{\boldsymbol R}&=\arg\min_{\boldsymbol R}\sum^n_{i=1}\| \boldsymbol x_i - \boldsymbol R\boldsymbol y_i\|^2 \\ &=\arg\min_{\boldsymbol R}\sum^n_{i=1} ( \boldsymbol x_i - \boldsymbol R\boldsymbol y_i) ^\mathrm T( \boldsymbol x_i - \boldsymbol R\boldsymbol y_i) \\ &=\arg\min_{\boldsymbol R}\sum^n_{i=1} ( \boldsymbol x_i^\mathrm T\boldsymbol x_i - \boldsymbol x_i^\mathrm T\boldsymbol R\boldsymbol y_i - \boldsymbol y_i^\mathrm T\boldsymbol R^\mathrm T\boldsymbol x_i - \boldsymbol y_i^\mathrm T\boldsymbol R^\mathrm T\boldsymbol R\boldsymbol y_i) \\ &=\arg\min_{\boldsymbol R}\sum^n_{i=1} ( \boldsymbol x_i^\mathrm T\boldsymbol x_i - 2\boldsymbol x_i^\mathrm T\boldsymbol R\boldsymbol y_i - \boldsymbol y_i^\mathrm T\boldsymbol y_i) \\ &=\arg\max_{\boldsymbol R}\sum^n_{i=1}\boldsymbol x_i^\mathrm T\boldsymbol R\boldsymbol y_i \\ &=\arg\max_{\boldsymbol R}tr\Big(\sum^n_{i=1}\boldsymbol x_i^\mathrm T\boldsymbol R\boldsymbol y_i\Big) \\ &=\arg\max_{\boldsymbol R}tr\Big(\sum^n_{i=1}\boldsymbol R\boldsymbol y_i\boldsymbol x_i^\mathrm T\Big) \\ &=\arg\max_{\boldsymbol R}tr\Big(\boldsymbol R\sum^n_{i=1}\boldsymbol y_i\boldsymbol x_i^\mathrm T\Big) \end{aligned}$

上面的 $t r$ 表示矩阵的迹
最后这个 $\boldsymbol y_i\boldsymbol x_i^\mathrm T$ 实际上是个协方差矩阵

记 $\boldsymbol H=\displaystyle\sum^n_{i=1}\boldsymbol y_i\boldsymbol x_i^\mathrm T$ ，有：
$\hat{\boldsymbol R}=\arg\max_{\boldsymbol R}tr\Big(\boldsymbol R\boldsymbol H\Big)$

现在对 $\boldsymbol H$ 进行SVD分解可得：
$\boldsymbol H=\boldsymbol U\boldsymbol\Sigma\boldsymbol V^\mathrm T$
则：
$\begin{aligned} \hat{\boldsymbol R}&=\arg\max_{\boldsymbol R}tr\Big(\boldsymbol R\boldsymbol U\boldsymbol\Sigma\boldsymbol V^\mathrm T\Big) \\ &=\arg\max_{\boldsymbol R}tr\Big(\boldsymbol\Sigma\boldsymbol V^\mathrm T\boldsymbol R\boldsymbol U\Big) \end{aligned}$

记 $\boldsymbol M=\boldsymbol V^\mathrm T\boldsymbol R\boldsymbol U$ ，又 $\boldsymbol\Sigma$ 是对角阵
那么：
$\begin{aligned} \hat{\boldsymbol R}&=\arg\max_{\boldsymbol R}tr\Big(\boldsymbol\Sigma\boldsymbol M\Big) \\ &=\arg\max_{\boldsymbol R}tr\Big(\sum^n_{i=1}\sigma_i m_{ii}\Big) \end{aligned}$

因为 $\boldsymbol V^\mathrm T,\boldsymbol R,\boldsymbol U$ 均为正交矩阵，所以 $\boldsymbol M$ 是正交矩阵，则 $m_{ij}\le1$
故当 $m_{ii}=1$ 时， $\displaystyle\sum^n_{i=1}\sigma_i m_{ii}$ 取到最大值。
而 $\boldsymbol M$ 是正交矩阵，所以
$\boldsymbol M=\boldsymbol I$
即
$\boldsymbol V^\mathrm T\boldsymbol R\boldsymbol U=\boldsymbol I$
所以
$\hat{\boldsymbol R}=\boldsymbol V\boldsymbol U^\mathrm T$