德鲁周记13--最小二乘、RANSAC与霍夫变换的区别

最新推荐文章于 2022-09-27 19:25:11 发布

安德鲁JANKENPAN

最新推荐文章于 2022-09-27 19:25:11 发布

阅读量2k

点赞数 2

分类专栏：德鲁周记 SLAM

本文链接：https://blog.csdn.net/qq_44047943/article/details/113664413

版权

SLAM 同时被 2 个专栏收录

20 篇文章 9 订阅

订阅专栏

德鲁周记

16 篇文章 1 订阅

订阅专栏

最小二乘、RANSAC与霍夫变换

最小二乘与RANSAC
霍夫变换
- 基本原理
- - 霍夫投票

最近看orb-slam2代码和图像处理问题的时候发现了多种处理直线拟合的方法，特此也记录一下。
分别是直线拟合的最小二乘法，RANSAC和直线检测的霍夫变换，其本质都是对直接的拟合。

最小二乘与RANSAC

普通最小二乘是保守派：在现有数据下，如何实现最优。是从一个整体误差最小的角度去考虑，尽量谁也不得罪。

RANSAC是改革派：首先假设数据具有某种特性（目的），为了达到目的，适当割舍一些现有的数据。

给出最小二乘拟合（红线）、RANSAC（绿线）对于一阶直线、二阶曲线的拟合对比：

在这里插入图片描述

最小二乘

在此先列举一下最小二乘家族成员。最小二乘法直线拟合，最小二乘法多项式（曲线）拟合，机器学习中线性回归的最小二乘法，系统辨识中的最小二乘辨识法，参数估计中的最小二乘法，等等。由此可见，我们每次碰到的都是最小二乘法这个多面体的其中一个面。如果只从单个面研究，就看不到它的整体，也就不能理解它的内涵。因此，为了搞明白这个多面体，我们就要从它的核心入手，剖析它最本质的内容。
先从最小二乘的名字来看，所谓最小二乘，其实也可以叫做最小平方和。那么，是什么的平方和最小呢?那肯定是误差最小，那是什么的误差呢?就是目标对象和拟合对象的误差。连起来看，就是通过最小化误差的平方和，使得拟合对象无限接近目标对象，这就是最小二乘的核心思想。可以看出，最小二乘解决的是一类问题，就是需要拟合现有对象的问题。这么看来，是不是也就可以理解为什么最小二乘应用如此广泛了呢

举个最简单的例子理解最小二乘

假设身高是变量X，体重是变量Y，我们都知道身高与体重有比较直接的关系。生活经验告诉我们：一般身高比较高的人，体重也会比较大。但是这只是我们直观的感受，只是很粗略的定性的分析。在数学世界里，我们大部分时候需要进行严格的定量计算：能不能根据一个人的身高，通过一个式子就能计算出他或者她的标准体重？
接下来，我们肯定会找一堆人进行采用（请允许我把各位当成一个样本）。采样的数据，自然就是各位的身高与体重。（为了方便计算与说明，请允许我只对男生采样）经过采样以后，我们肯定会得到一堆数据
在这里插入图片描述
其中x是身高，y是体重。得到这堆数据以后，接下来肯定是要处理这堆数据了。生活常识告诉我们：身高与体重是一个近似的线性关系，用最简单的数学语言来描述就是：

于是，接下来的任务就变成了：怎么根据我们现在得到的采样数据，求出这两个β呢？这个时候，就轮到最小二乘法发飙显示威力了。

最小二乘的cost function

在讲最小二乘的详情之前，首先明确两点：1.我们假设在测量系统中不存在有系统误差，只存在有纯偶然误差。比如体重计或者身高计本身有问题，测量出来的数据都偏大或者都偏小，这种误差是绝对不存在的。（或者说这不能叫误差，这叫错误）2.误差是符合正态分布的，因此最后误差的均值为0（这一点很重要)
明确了上面两点以后，重点来了：为了计算β1和β2的值，我们采取如下规则：β1和β2应该使计算出来的函数曲线与观察值的差的平方和最小。用数学公式描述就是：
在这里插入图片描述

最小二乘法的求解

样本的回归模型很容易得出：
在这里插入图片描述
现在需要确定β1,β2，使cost function最小。学过高数的同志们都清楚，求导就OK。对于这种形式的函数求导

将这两个方程稍微整理一下，使用克莱姆法则，很容易求解得出：

因为求和符号比较多，省略了上标与下标。
根据这个公式，就可以求解出相应的参数。
对应上面的身高体重关系的例子，我们只需要将采样得到的数据，一一代入即可求解。

RANSAC

可以看到RANSAC可以很好的拟合。RANSAC可以理解为一种采样的方式，所以对于多项式拟合、混合高斯模型（GMM）等理论上都是适用的。
RANSAC简化版的思路就是：

第一步：假定模型（如直线方程），并随机抽取Nums个（以2个为例）样本点，对模型进行拟合：

在这里插入图片描述

第二步：由于不是严格线性，数据点都有一定波动，假设容差范围为：sigma，找出距离拟合曲线容差范围内的点，并统计点的个数：

在这里插入图片描述

第三步：重新随机选取Nums个点，重复第一步~第二步的操作，直到结束迭代：

在这里插入图片描述

第四步：每一次拟合后，容差范围内都有对应的数据点数，找出数据点个数最多的情况，就是最终的拟合结果：

在这里插入图片描述

至此：完成了RANSAC的简化版求解。

这个RANSAC的简化版，只是给定迭代次数，迭代结束找出最优。如果样本个数非常多的情况下，难不成一直迭代下去？其实RANSAC忽略了几个问题：

每一次随机样本数Nums的选取：如二次曲线最少需要3个点确定，一般来说，Nums少一些易得出较优结果；
抽样迭代次数Iter的选取：即重复多少次抽取，就认为是符合要求从而停止运算？太多计算量大，太少性能可能不够理想；
容差Sigma的选取：sigma取大取小，对最终结果影响较大；
这些参数细节信息参考：维基百科。

RANSAC的作用有点类似：将数据一切两段，一部分是自己人，一部分是敌人，自己人留下商量事，敌人赶出去。RANSAC开的是家庭会议，不像最小二乘总是开全体会议。

霍夫变换

Hough直线检测的基本原理在于利用点与线的对偶性，在我们的直线检测任务中，即图像空间中的直线与参数空间中的点是一一对应的，参数空间中的直线与图像空间中的点也是一一对应的。这意味着我们可以得出两个非常有用的结论：
1）图像空间中的每条直线在参数空间中都对应着单独一个点来表示；
2）图像空间中的直线上任何一部分线段在参数空间对应的是同一个点。
因此Hough直线检测算法就是把在图像空间中的直线检测问题转换到参数空间中对点的检测问题，通过在参数空间里寻找峰值来完成直线检测任务。