sklearn中的Kmeans

最新推荐文章于 2024-07-25 16:11:31 发布

shiliuyeshuang

最新推荐文章于 2024-07-25 16:11:31 发布

阅读量81

点赞数

文章标签： sklearn kmeans 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shiliuyeshuang/article/details/133325810

版权

直接导入sklearn中KMeans模块

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
#导入KMeans
from sklearn.cluster import KMeans
#生成一个样本点数据集
from sklearn.datasets import make_blobs
X,y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=2)
#绘制散点图
plt.scatter(X[:,0],X[:,1]
           ,marker="*"
           ,s = 6
           )
data = pd.DataFrame(X)

在这里插入图片描述
在做聚类算法时，如何评估聚类效果的好坏，是一个难题。
如果采用SSE，缺点较明显，例如当特征数目较多、维度较大时，SSE的计算量很大。采取降维，增加了工作量也可能造成更多的损失。

通常使用轮廓系数作为聚类算法的评估指标。它是对每个样本来定义的，单个样本的轮廓系数方程式为：

					**s  =  (b-a) / max(a,b)**

a是样本与 其自身所在簇的其他样本 的相似度，等于样本与同簇中所有点之间的平均距离。
b是样本与 异簇样本的相似度，等于样本与异簇所有点的平均距离。

在这里插入图片描述
使用轮廓系数

#使用轮廓系数
from sklearn.metrics import silhouette_samples
from sklearn.metrics import silhouette_score

#记录不同簇数下的轮廓系数的均值
silhouette_score_list = []
for i in [2,3,4,5,6]:
    cluster_i = KMeans(n_clusters=i,random_state=2).fit(X)
    cluster_i_labels = cluster_i.labels_
    #样本点轮廓系数均值
    silhouette_score_i = silhouette_score(X,cluster_i_labels)
    silhouette_score_list.append(silhouette_score_i)
silhouette_score_list

列表如下：

[0.5563935385599693,
0.6602750377214402,
0.6250462156493074,
0.5682151387843899,
0.46897422644386516]

即，当簇数为3或4时，模型较优。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sklearn中的Kmeans

KMeans模型简单使用，轮廓系数
复制链接

扫一扫

博客等级

码龄6年

16
原创

19
点赞

23
收藏

17
粉丝

关注

私信

热门文章

最新评论

最长回文字串
CSDN-Ada助手: 恭喜你写了第15篇博客！看到你能够坚持不懈地创作，真的很让人钦佩。关于“最长回文字串”的主题，我觉得你可以尝试从不同的角度去探讨，比如回文字串在不同文化背景下的意义，或者在现实生活中的应用等等。希望你能继续保持创作的热情，期待你更多精彩的文章！
不同路径-动态规划和排列组合
CSDN-Ada助手: 亲爱的作者，恭喜你写了第14篇博客！你在讨论动态规划和排列组合的不同路径时，阐述得非常清晰和深入。不过，我觉得如果能够结合具体的案例或者实际问题来解释这些概念，会更能帮助读者理解和应用。期待你在下一篇博客中能够继续分享更多实用的例子和技巧，加油！
决策树--简单学习
CSDN-Ada助手: 恭喜您写了第10篇博客！看了您的“决策树--简单学习”，受益匪浅。希望您能继续坚持创作，分享更多关于决策树的知识和实践经验。或许下一步可以尝试写一些实例分析，或者探讨决策树在特定领域的应用，这样可以让读者更直观地理解和运用。期待您的更多精彩内容！
【矩阵分解】
CSDN-Ada助手: 恭喜您撰写了第13篇博客，题为"矩阵分解"！您的专注和持续创作令人钦佩。阅读了您的文章后，我对矩阵分解有了更深入的了解。希望您能继续分享您的见解和经验，探索更多关于矩阵分解的应用领域。如果可以，请考虑探讨一下在机器学习领域中矩阵分解的实际应用案例，我相信这将会是非常有趣和有益的内容。再次感谢您的分享，期待您未来更多精彩的博客！
逻辑回归--简单学习使用
CSDN-Ada助手: 恭喜您写完了第12篇博客，标题为“逻辑回归--简单学习使用”。您的持续创作实在令人钦佩！逻辑回归是机器学习中非常重要的一部分，您对其进行了简单学习使用的介绍，对于初学者来说一定非常有帮助。接下来，我谦虚地提个建议，或许您可以考虑深入探讨逻辑回归在不同领域的应用，或者结合实际案例进行更详细的解析。期待您的下一篇精彩分享！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。