机器学习学习笔记（十二）之K-means算法

最新推荐文章于 2023-02-13 15:28:55 发布

worden丶

最新推荐文章于 2023-02-13 15:28:55 发布

阅读量220

点赞数

分类专栏：机器学习学习笔记文章标签： python 机器学习

本文链接：https://blog.csdn.net/qq_42769184/article/details/108470739

版权

机器学习学习笔记专栏收录该内容

12 篇文章 1 订阅

订阅专栏

一、无监督学习包含算法

聚类——K-means
降维——PCA

二、K-means算法原理

随机设置K个特征空间内的点作为初始的聚类中心
对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别
接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程

在这里插入图片描述
三、API

sklearn.cluster.KMeans(n_clusters=8,init = ‘k-means++’)
- 参数:
  - n_clusters:开始的聚类中心数量
    - 整型，缺省值=8，生成的聚类数，即产生的质心（centroids）数。
  - init：初始化方法，默认为’k-means++’
  - labels_：默认标记的类型，可以和真实值比较（不是值比较）
方法:
- estimator.fit(x)
- estimator.predict(x)
- estimator.fit_predict(x)
  - 计算聚类中心并预测每个样本属于哪个类别,相当于先调用fit(x),然后再调用predict(x)

四、模型评估

轮廓系数SCi∈[-1,1]，'高内聚，低耦合’效果好
- SCi越接近于1，聚类效果越好
- SCi越接近于-1，聚类效果越差
API
- sklearn.metrics.silhouette_score(X,labels)
  - 计算所有样本的平均轮廓系数
  - X：特征值
  - label：被聚类标记的目标值

五、案例

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 预估器流程
estimator = Kmeans(n_clusters = 3)
estimator.fit(data)
# data为特征值，因为聚类是无监督学习，没有目标值，不需要传入

y_predict = estimator.predict(data)
print(y_predict) 

# 模型评估
silhouette_score(data,y_predict)

运行结果：
y_predict:
[0,1,0,0,0,2,1,2]

0.539632554654

六、K-means总结

特点：采用迭代式算法，直观易懂并且非常实用
缺点：容易收敛到局部最优解（多次聚类）

worden丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习学习笔记（十二）之K-means算法

一、无监督学习包含算法eans聚类——K-means降维——PCA二、K-means算法原理随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程三、APIsklearn.cluster.KMeans(n_clusters=8,init = ‘k-means
复制链接

扫一扫