opencv之kmeans聚类算法

最新推荐文章于 2022-03-26 15:01:50 发布

qq_26460507

最新推荐文章于 2022-03-26 15:01:50 发布

阅读量1.1k

点赞数

分类专栏： opencv学习

opencv学习专栏收录该内容

35 篇文章 2 订阅

订阅专栏

K-means算法算是个著名的聚类算法了，不仅容易实现，并且效果也不错，训练过程不需人工干预，实乃模式识别等领域的居家必备良品啊，今天就拿这个算法练练手。

总结来说，这个算法的步骤如下：

1.随机选取样本中的K个点作为聚类中心
2.计算所有样本到各个聚类中心的距离，将每个样本规划在最近的聚类中
3.计算每个聚类中所有样本的中心，并将新的中心代替原来的中心
4.检查新老聚类中心的距离，如果距离超过规定的阈值，则重复2-4，直到小于阈值

kmeans是非常经典的聚类算法，至今也还保留着较强的生命力，图像处理中经常用到kmeans算法或者其改进算法进行图像分割操作，在数据挖掘中kmeans经常用来做数据预处理。opencv中提供了完整的kmeans算法，其函数原型为：

double kmeans( InputArray data, int K, InputOutputArray bestLabels, TermCriteria criteria, int attempts, int flags, OutputArray centers = noArray() );

其中data表示用于聚类的数据，是N维的数组类型（Mat型），必须浮点型；

K表示需要聚类的类别数；

bestLabels聚类后的标签数组，Mat型；

criteria迭代收敛准则（MAX_ITER最大迭代次数，EPS最高精度）；

attemps表示尝试的次数，防止陷入局部最优；

flags 表示聚类中心的选取方式（KMEANS_RANDOM_CENTERS 随机选取，KMEANS_PP_CENTERS使用Arthur提供的算法，KMEANS_USE_INITIAL_LABELS使用初始标签）；

centers 表示聚类后的类别中心。

关于kmeans的理论可以参考：基本Kmeans算法介绍及其实现

补充：

k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小

1. 算法基本步骤

（1）从 n个数据对象任意选择 k 个对象作为初始聚类中心；

（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；

（3）重新计算每个（有变化）聚类的均值（中心对象）；

（4）计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则回到步骤（2）。

2.OpenCV 函数使用

int cvKMeans2(const CvArr* samples, //输入样本的浮点矩阵，每个样本一行

int nclusters,//所给定的聚类数目
　　　　　　　 CvArr* labels, //输出整数向量：每个样本对应的类别标识

CvTermCriteria termcrit, //指定聚类的最大迭代次数和／或精度（两次迭代引起的聚类中心的移动距离）
　　　　　　　 int attempts=1, CvRNG* rng=0,int flags=0,
　　　　　　　 CvArr* centers=0,double* compactness=0);

参考：

http://blog.csdn.net/xizhibei/article/details/7407873

http://blog.csdn.net/owen7500/article/details/51604906