基于提前停止方法的优化随机一致性采样算法

时轲

于 2022-10-03 18:28:23 发布

阅读量903

点赞数 1

文章标签：算法机器学习计算机视觉

本文链接：https://blog.csdn.net/shike951128/article/details/127154727

版权

《基于提前停止方法的优化随机一致性采样算法》

关键字：提前停止一致性采样算法图像处理算法优化

摘要：

图像处理领域的随机一致性采样(RANSAC)算法，是经典的离散数据拟合方法。该采样算法在小规模数据的优势，迁移到大规模数据时，存在算法的时间有效性较差的问题。本文通过使用提前停止方法，用小规模数据的样本特征的阈值，在保证计算结果有效性的同时，优化一致性采样算法的执行时间。该优化算法在图像预处理的应用场景，对比经典算法的处理效率有一些性能提高。

Keyword:

early stop / consistency sampling algorithm / image processing / algorithm optimization

Abstract:

The consistent sampling (RANSAC) algorithm in image processing is a classical discrete data fitting method. This algorithm has the advantage of sampling small-scale data. When migrating to large-scale data, the time effectiveness of the algorithm is poor. In this paper, we use the early stop method and the threshold value of the sample characteristics of small-scale data. We optimize the execution time of the consistent sampling algorithm while ensuring the validity of the calculation results. In the application of image preprocessing, the optimization algorithm has some performance improvement compared with the classical algorithm.

1.概述

离散数据的采样算法，是提取样本信息有效特征的基础。采样算法的假设模型，将全部数据的归于样本内点，预先设定一个经验阈值，通过反复运行筛选出样本外点。部分模型修改参数做相反的操作，得到一样的样本特征结果。随机一致性采样算法，在计算内点和外点的模型中，尤其是复杂环境的噪声中，错误率是很好的一种算法。

采样算法的时间复杂度，一直是重要的指标。实际应用场景中，采样算法的时间复杂度和迭代次数是正相关的关系。优化采样算法的时间复杂度，就要减小迭代次数。但是迭代次数的无预期减小，会造成样本数据的欠拟合，很难从中提取有效的特征。即使提取样本的有效特征，特征结果存在难以接受的精度误差。

概率分布的角度分析分析，重复采样在每次迭代的时候，如果一组有100个数据，那么80个点作为内点，20个点作为外点。80个内点的概率分布是采样算法的概率无关。正确的假设模型基于采样算法，因此正确的假设模型也是概率无关的。假设模型处理80个内点，只需要将每个点看成随机的点，不用考虑内点比例问题。一般把初始内点比例设置0。这就是经典的随机一致性采样算法(RANSAC)。

很明显，随机一致性采样算法均匀的从整个样本采样，平均分配计算时间。因此存在假设模型的评价是时间正相关。机器学习的数据集训练中，处理过拟合现象使用优化函数，处理欠拟合现象使用小批量样本和提前停止方法。解决随机一致性采样的问题，我们用机器学习的提前停止方法，在不损失样本精度和结果有效性的前提下，优化采样算法的执行时间。因此我们提出基于提前停止方法的优化算法。

相对于随机一致性采样算法的预置阈值，但是在样本数据急剧增加时，会出现局部最优解的问题。本文的优化算法使用机器学习的提前停止，不依赖准确性做到正确匹配，很好的避开局部离群点的特征，是非阈值参数的松弛算法。相较一致性采样算法的变种: 最大最小值样本估计算法(MLESAC) 、先验概率随机一致性采样算法(P-RANSAC)，无法匹配最小误差，则无法使用本文的这种优化策略。

提前停止方法

提前停止方法(early stopping)是机器学习的基础，在向量组的梯度计算时，表现出特征提取和数据拟合能力的巨大提升优势。经典的提前停止方法有：超参数提前停止算法(Median stop)、随机搜索(Rnadom search)、贝叶斯优化(Bayesian optimization)等。基于数理统计的马尔科夫链模型和隐式马尔科夫链模型，在特征提取的早期通过极大似然估计来拟合权重。保证每次迭代拟合结果，优于平均迭代结果，从而挑选出最佳权重和最优回归函数。

马尔可夫链一般被认为存在NP问题的平稳性分布，也就是存在概率空间的一致性遍历。曲线拟合算法不基于机器学习的预测和评估。因此初始概率，不影响提前停止方法的结果。同时一个概率模型的多个随机采样，即计算不带先验信息，平稳分布不是时间正相关。

假设模型的泛化能力，在降低计算维度的有效规模上，有很好的应用。当训练集存在过拟合现象，结果表现很差时。用提前停止方法，避免过拟合的问题，在测试集验证时有较好的结果。这种降低权重的方法是平滑的，能很快找到局部最优解。本文的优化算法，就是基于这个思路，用提前停止方法对随机一致性采样算法进行改进。

实际工作

确定优化算法的思路后，我们对现有的算法进行局部改进。该工作的实际内容主要分为以下四个主要方向：

初始阈值过于依赖迭代次数，将该模块移除。迁移最优梯度下降方法的提前停止算法。
直线拟合和曲面拟合的评价标准，最小均方根误差不足以看出最大点拟合的效果。替换为雅可比矩阵的下降梯度，该处直接复用机器学习的经典数学方法。
集合点的选择，沿用经典的随机一致性采样算法的算法实现。原因是这里可参考的其他论文较多、验证数据详实，研究成果可以直接使用。
减小迭代次数的同时，需要保证拟合样本数据的足够数量、保证误差足够小。为不影响本文的优化算法的效果，选择反向匹配的误差值验证数据的有效性。

其中(4)用了(1)的数据结果，所以需要做同样进度的算法优化工作。

表3.1 本文的优化算法实现细节

策略的调整主要是移除初始阈值模块，添加机器学习的提前停止模块。考虑到噪声对扰动模型的影响，包括隐马尔可夫链对前置状态的前馈传播。我们调整经典随机一致性采样算法的最近点匹配为模型误差率。这样模型的梯度误差，代替了点匹配的最小均方根误差。整个算法的优化实现，尤其是提前停止算法的选择和调参，我们做了四周左右的工作。样本集数据在算法运行时的误差数据，能很好的体现本文的优化算法的优势，详见表4.1 。

图3.2 本文的优化算法进行Kalman滤波

我们在图像处理的过程种，使用本文的优化算法，对图片的进行滤波复原操作。基于卡尔曼滤波的卷积核大小是4，卷积核处理后的图片见图3.2左侧。我们用这张效果较差的图片作为输入，使用本文的优化算法的卷积计算，得到3.2右侧的图片。通过比较卡尔曼滤波前后的图片质量，验证了本文的优化算法的适用性。说明在图像处理的过程种，本文的优化算法可以代替随机一致性采样算法，同时保持图像处理的质量。

实验效果

实验效果的验证分为两个部分：图像数据、三维空间离散数据。

电脑配置是：CPU AMD2700x，GPU RTX1080ti，RAM 16GB 。

图像数据使用在互联网下载的数字图像。图像数据的大小是2.7GB，标签信息是经过人工手动筛选，格式是经过统一的640P像素大小。三维空间离散数据集分为预处理集合、计算集合、验证测试集合，共三个部分。我们使用后面的两个数据集。三维空间离散数据集合使用尚未开源的团体内部数据集。我们会在近期将部分代码和数据集开源，具体进展需要团体内部流程审核。我们对本文的优化算法做了大量的工作，使用图片数据和三维空间离散数据，在一个月的时间里进行大量实验。

表4.1 比较算法误差和算法耗时

实验编号	样本数量	内点数量	本文算法	RANSAC算法	本文算法耗时	RANSAC算法耗时
1	10	5	5	5	1.74	1.64
2	50	30	29	30	2.13	1.92
3	100	80	80	80	2.34	2.44
4	500	300	297	300	2.67	2.76
5	800	600	575	563	2.78	3.11
6	1000	850	812	832	2.1	4.7
*随着内点数量增加，本文算法在误差平均的情况，表现较好的耗时(us)较小的优势。

图4.2 拟合效果的比较曲线

从实验结果数据分析，表4.1的数据显示在内点数量较小时，本文的优化算法和随机一致性采样算法的误差保持一致。但是随着内点数量的增加，本文的优化算法在计算耗时上存在显著优势。不过这种优势的保持，在内点数量基本维持典型刚体运动标准时，优势不会丢失。我们没有选择数量更大的内点，因为本文的优化算法在鲁棒性上存在可以改进的地方。

两种算法的拟合效果，我们的预期是保证误差在可接受的范围。图4.2的数据显示，在内点的随机显著性特征不光滑时，噪声的数量并不会制约本文的优化算法。我们统计图中的内点有效个数发现，经典的随机一致性算法在小样本的情况下，仍然逊色于本文的优化算法。该表现趋势和表4.1保持一致。

后续工作

本文的优化算法，在三维空间离散数据的曲面拟合，性能优于平面拟合。猜测是平面拟合时外点和噪声点，多于曲面拟合时的外点和噪声点。同样图像拼接和空间特征点提取时，本文的优化算法表现弱于经典的随机一致性采样算法。提前停止方法不存在阈值，所以对强直滤波的噪声不敏感。这些差异说明同样数量的数据集，在不同噪声的情况下，本文的改进算法存在性能差异。如果能将差异的优势应用在上述领域，或许有不错的表现。

后续将关注3D点云数据的预处理，随机噪声点的处理。期望能使用本文的改算法，优化3D点云处理的过程。

引用论文：

[1]Érick Oliveira Rodrigues et al. k-MS: A novel clustering algorithm based on morphological reconstruction[J]. Pattern Recognition, 2017, 66 : 392-403.

[2]李静,杨宜民,张学习.一种改进的MLESAC基本矩阵估计算法[J].计算机工程,2012,38(19):214-217.

[3]王洋,王俊元,杜文华,段能全.基于最小平方中值的点云平面拟合算法[J/OL].激光与光电子学进展:1-11[2022-10-02].http://kns.cnki.net/kcms/detail/31.1690.TN.20220713.1441.386.html

[4]任彬,宋海丽,赵增旭,谢厚正.基于RANSAC的视觉里程计优化方法研究[J].仪器仪表学报,2022,43(06):205-212.DOI:10.19650/j.cnki.cjsi.J2209128.

[5]张建伟,权庆乐.一种融合区域生长和RANSAC的稠密点云平面分割方法[J].西安科技大学学报,2022,42(02):341-348.DOI:10.13800/j.cnki.xakjdxxb.2022.0219.

[6]程漫颖,姚敏茹,曹凯,杨雪梦.基于二次匹配策略的RANSAC算法研究[J].电光与控制,2021,28(06):38-41+51.

[7]邵聃,金立左.一种图像拼接的点特征匹配算法[J].东南大学学报(自然科学版),2008,38(S2):150-153.

[8]Muñoz Castañeda Ángel Luis and DeCastroGarcía Noemí and Escudero García David. RHOASo: An Early Stop Hyper-Parameter Optimization Algorithm[J]. Mathematics, 2021, 9(18) : 2334-2334.

[9]A. Mexicano et al. The early stop heuristic: A new convergence criterion for K-means[J]. AIP Conference Proceedings, 2016, 1738(1) : 310003.

时轲

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
基于提前停止方法的优化随机一致性采样算法

图像处理领域的随机一致性采样(RANSAC)算法，是经典的离散数据拟合方法。该采样算法在小规模数据的优势，迁移到大规模数据时，存在算法的时间有效性较差的问题。本文通过使用提前停止方法，用小规模数据的样本特征的阈值，在保证计算结果有效性的同时，优化一致性采样算法的执行时间。该优化算法在图像预处理的应用场景，对比经典算法的处理效率有一些性能提高。
复制链接

扫一扫