K-means聚类算法的应用——Python数据工程No.5

本文介绍了K-means聚类算法的工作原理,包括随机选择初始聚类中心,分配点到最近的簇,更新聚类中心等步骤。通过使用sklearn.cluster.KMeans库,对1999年全国31个省份城镇居民消费性支出数据进行了聚类分析,以揭示消费水平的分布特征。
摘要由CSDN通过智能技术生成

k-means算法:以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,簇间的相似度较低。

步骤:
1.随机选择k个点作为初始的聚类中心;
2.对于剩下的点,根据其与聚类中心的距离,将其归于最近的簇;
3.对每个簇计算所有点的均值作为新的聚类中心;
4.重复步骤2、3,知道聚类中心不再改变。

实现方法:
sklearn.cluster.Kmeans

案例:
根据1999年全国31个省份城镇居民家庭平均每人全年消费性支出数据按照消费水平进行聚类分析
数据:

北京,2959.19,730.79,749.41,513.34,467.87,1141.82,478.42,457.64
天津,2459.77,495.47,697.33,302.87,284.19,735.97,570.84,305.08
河北,1495.63,515.90,362.37,285.32,272.95,540.58,364.91,188.63
山西,1406.33,477.77,290.15,208.57,201.50,414.72,281.84,212.10
内蒙古,1303.97,524.29,254.83,192.17,249.81,463.09,287.87,192.96
辽宁,1730.84,553.90,246.91,279.81,239.18,445.20,330.24,163.86
吉林,1561.86,492.42,200.49,218.36,220.69,459.62,360.48,147.76
黑龙江,1410.11,510.71,211.88,277.11,224.65,376.82,317.61,152.85
上海,3712.31,550.74,893.37,346.93,527.00,1034.98,720.33,462.03
江苏,2207.58,449.37,572.40,211.92,302.09,5
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值