一、算法简介
K-means聚类算法由J.B.MacQueen在1967年提出,是最为经典也是使用最为广泛的一种基于划分的聚类算法,属于基于距离的聚类算法。这类算法通常是由距离比较相近的对象组成簇,把得到紧凑而且独立的簇作为最终目标,因此将这类算法称为基于距离的聚类算法,不同的是K - means算法还属于动态聚类算法,是其中比较经典的算法。
动态聚类法:先选择若干个样本作为聚类中心,再按照事先确定的聚类准则进行聚类,在聚类过程中根据聚类准则,对聚类中心进行反复修改,直到合理为止。
二、算法原理
(1)
随机选择
k
个数据点作为初始质心(聚类中心)。
(2)
将每个数据点划分给距离最近的质心,衡量两个样本数据点的距离有多种不同的方法,最常用的是欧氏距离。
(3)
重新计算每个簇的质心作为新的聚类中心,使其总的平方距离达到最小。
(4)
重复第
2
步和第
3
步,直到收敛。
三、程序实现
数据集下载:
MATLAB鸢尾花数据集(iris.txt)_鸢尾花数据集txt_祐言的博客-CSDN博客
选取鸢尾花集的前两组数据,花萼宽度和花萼长度作为数据集进行聚类,聚类结果如下:
%数据集
X=load('iris.txt');
%初始聚类中心
C = [0 0; 1 0; 1 1; 1 2; 1 3];
%迭代次数设置
D =20;
完整代码下载:
https://download.csdn.net/download/qq_64928278/87680629?spm=1001.2014.3001.5501