K-means算法是使用得最为广泛的一个算法,本文将介绍K-means 聚类算法、原理、特点及改进思路。
K-means聚类算法简介
K-means 聚类算法,是基于距离的一种无监督式的学习算法。在1967年首次由MacQueen提出,常用于模式识别和数据挖掘中,其目的是对一组数据进行几何等价划分进行分类。
K-means算法是使用得最为广泛的一个算法,其应用场景遍及医学、经济学、行为学、决策科学等领域。算法以样本均值(质心)代表该类,定义简单具有清晰明了的几何和统计意义。
K-means聚类算法原理
算法的基本思路:
- 从 一组数据对象随机选择 m 个对象作为初始聚类中心;
- 根据每个聚类数据对象的均值(质心),计算每个数据对象与这些质心的距离;并根据最小距离重新对相应数据对象进行划分;
- 重新计算每个(有变化)聚类的均值(质心);
- 计算标准测度函数,当满足函数收敛时,则算法终止;如果条件不满足则回到步骤2
算法的工作流程