如何确定Kmeans中的k值

KMeans聚类是目前应用比较广泛的无监督聚类方法。
但是存在下面两个问题:
1.初始簇的选择,一般python调用Kmeans包的时候是随机生成初始簇,但是存在一些问题。这个以后再做相信分析。
2.现在遇到的一个问题是:需求方想知道k是怎么确定的,一般k是通过经验给出的,或者对于数据有一个了解,有大致的k值范围。
但是如果数据量巨大,该怎么确定比较好的k值呢?
现在有一个解决办法:Kmeans聚类的效果评估方法是SSE,是计算所有点到相应簇中心的距离均值,当然,k值越大
SSE越小,我们就是要求出随着k值的变化SSE的变化规律,找到SSE减幅最小的k值,这时k应该是相对比较合理的值。

(这是目前的遇到的一点问题,以后还会继续补充)
最近用手中的数据用Kmeans实验了一下,下面是用python实现的过程:
step 1:导入数据
step 2:找到最佳的k
下面是python代码:
inertia=[]
label_pred=[]
meanall=meanall.fillna(0)
centroids=[]
for k in range(1,10):
estimator = KMeans(n_clusters=k)#构造聚类器
estimator.fit(meanall)#聚类
label_pred.append(estimator.labels_) #获取聚类标签
centroids.append(estimator.cluster_centers_) #获取聚类中心
inertia.append(es

  • 2
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值