kmeans设置中心_Kmeans聚类(python)

本文详细介绍了KMeans聚类的思想、原理和应用实战。内容包括KMeans聚类的基本流程、目标函数及其求解,以及如何选择最佳的K值,包括拐点法、轮廓系数法和间隔统计量法。文中还通过iris数据集和NBA球员数据进行实例演示,强调了聚类前的数据预处理和选择合适K值的重要性。
摘要由CSDN通过智能技术生成

第十五章 Kmeans聚类

01 Kmeans聚类的思想和原理

模型介绍

对于有监督的数据挖掘算法而言,数据集中需要包含标签变量(即因变量y的值)。但在有些场景下,并没有给定的y值,对于这类数据的建模,一般称为无监督的数据挖掘算法,最为典型的当属聚类算法。Kmeans聚类算法利用距离远近的思想将目标数据聚为指定的k个簇,进而使样本呈现簇内差异小,簇间差异大的特征。

聚类过程
  • 从数据中随机挑选个样本点作为原始的簇中心
  • 计算剩余样本与簇中心的距离,并把各样本标记为离个簇中心最近的类别
  • 重新计算各簇中样本点的均值,并以均值作为新的个簇中心
  • 不断重复第二步和第三步,直到簇中心的变化趋于稳定,形成最终的个簇
fa59d4d6e51b859559bbb10f9fe21c8e.png
原理介绍

Kmeans聚类模型中,对于指定的个簇,只有簇内样本越相似,聚类效果才越好。基于这个思想,可以理解为簇内样本的离差平方和之和达到最小即可。进而可以衍生出Kmeans聚类的目标函数:2d8a1f011e34dd86a2b0a284183a162c.png其中,表示第个簇的簇中心,属于第个簇的样本,表示第个簇的样本总量。对于该目标函数而言,是未知的参数,要想求得目标函数的最小值,得先知道参数的值。

求解参数

对目标函数求偏导b1ec386befcbc715cefdd296856468be.png令导函数为0d32b77ae194680dcaa3b301fdf8881a6.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值