概念:
一种典型的无监督学习算法,主要用于将相似的样本自动归于一个类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法
步骤 :
1.设定聚类个数K的值(通过肘部法确定,或根据实际要聚的类数确定)
2.生成K个聚类中心点
3.计算所有样本到聚类中心点的距离,根据远近聚类
4.更新质心,迭代聚类
5.重复第四步直到满足聚类要求(通常就是确定的中心点不在改变)
方法1:K-means
函数说明:
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans
sklearn中K-means有三种初始化中心点的方法:通过init指定,默认‘k-means++’
‘k-means++’ : 选择距离最远的点最为初始中心点
‘random’: 随机选择
ndarray :给点初始中心点
方法2:小批量 K-Means——适用于数据量较大的情况
方法3:K-medoids(k-中心聚类算法)