K-means聚类算法的应用——Python数据工程No.5

最新推荐文章于 2024-08-05 10:55:11 发布

文质彬彬online

最新推荐文章于 2024-08-05 10:55:11 发布

阅读量5.4k

点赞数 6

分类专栏：机器学习 Python数据工程文章标签： k-means sklearn

本文链接：https://blog.csdn.net/qq_34706280/article/details/85391054

版权

本文介绍了K-means聚类算法的工作原理，包括随机选择初始聚类中心，分配点到最近的簇，更新聚类中心等步骤。通过使用sklearn.cluster.KMeans库，对1999年全国31个省份城镇居民消费性支出数据进行了聚类分析，以揭示消费水平的分布特征。

摘要由CSDN通过智能技术生成

k-means算法：以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，簇间的相似度较低。

步骤：
1.随机选择k个点作为初始的聚类中心；
2.对于剩下的点，根据其与聚类中心的距离，将其归于最近的簇；
3.对每个簇计算所有点的均值作为新的聚类中心；
4.重复步骤2、3，知道聚类中心不再改变。

实现方法：
sklearn.cluster.Kmeans

案例：
根据1999年全国31个省份城镇居民家庭平均每人全年消费性支出数据按照消费水平进行聚类分析
数据：

北京,2959.19,730.79,749.41,513.34,467.87,1141.82,478.42,457.64
天津,2459.77,495.47,697.33,302.87,284.19,735.97,570.84,305.08
河北,1495.63,515.90,362.37,285.32,272.95,540.58,364.91,188.63
山西,1406.33,477.77,290.15,208.57,201.50,414.72,281.84,212.10
内蒙古,1303.97,524.29,254.83,192.17,249.81,463.09,287.87,192.96
辽宁,1730.84,553.90,246.91,279.81,239.18,445.20,330.24,163.86
吉林,1561.86,492.42,200.49,218.36,220.69,459.62,360.48,147.76
黑龙江,1410.11,510.71,211.88,277.11,224.65,376.82,317.61,152.85
上海,3712.31,550.74,893.37,346.93,527.00,1034.98,720.33,462.03
江苏,2207.58,449.37,572.40,211.92,302.09,5