聚类测试_31省市居民家庭消费水平

city.txt

北京,2959.19,730.79,749.41,513.34,467.87,1141.82,478.42,457.64
天津,2459.77,495.47,697.33,302.87,284.19,735.97,570.84,305.08
河北,1495.63,515.90,362.37,285.32,272.95,540.58,364.91,188.63
山西,1406.33,477.77,290.15,208.57,201.50,414.72,281.84,212.10
内蒙古,1303.97,524.29,254.83,192.17,249.81,463.09,287.87,192.96
辽宁,1730.84,553.90,246.91,279.81,239.18,445.20,330.24,163.86
吉林,1561.86,492.42,200.49,218.36,220.69,459.62,360.48,147.76
黑龙江,1410.11,510.71,211.88,277.11,224.65,376.82,317.61,152.85
上海,3712.31,550.74,893.37,346.93,527.00,1034.98,720.33,462.03
江苏,2207.58,449.37,572.40,211.92,302.09,585.23,429.77,252.54
浙江,2629.16,557.32,689.73,435.69,514.66,795.87,575.76,323.36
安徽,1844.78,430.29,271.28,126.33,250.56,513.18,314.00,151.39
福建,2709.46,428.11,334.12,160.77,405.14,461.67,535.13,232.29
江西,1563.78,303.65,233.81,107.90,209.70,393.99,509.39,160.12
山东,1675.75,613.32,550.71,219.79,272.59,599.43,371.62,211.84
河南,1427.65,431.79,288.55,208.14,217.00,337.76,421.31,165.32
湖南,1942.23,512.27,401.39,206.06,321.29,697.22,492.60,226.45
湖北,1783.43,511.88,282.84,201.01,237.60,617.74,523.52,182.52
广东,3055.17,353.23,564.56,356.27,811.88,873.06,1082.82,420.81
广西,2033.87,300.82,338.65,157.78,329.06,621.74,587.02,218.27
海南,2057.86,186.44,202.72,171.79,329.65,477.17,312.93,279.19
重庆,2303.29,589.99,516.21,236.55,403.92,730.05,438.41,225.80
四川,1974.28,507.76,344.79,203.21,240.24,575.10,430.36,223.46
贵州,1673.82,437.75,461.61,153.32,254.66,445.59,346.11,191.48
云南,2194.25,537.01,369.07,249.54,290.84,561.91,407.70,330.95
西藏,2646.61,839.70,204.44,209.11,379.30,371.04,269.59,389.33
陕西,1472.95,390.89,447.95,259.51,230.61,490.90,469.10,191.34
甘肃,1525.57,472.98,328.90,219.86,206.65,449.69,249.66,228.19
青海,1654.69,437.77,258.78,303.00,244.93,479.53,288.56,236.51
宁夏,1375.46,480.89,273.84,317.32,251.08,424.75,228.73,195.93
新疆,1608.82,536.05,432.46,235.82,250.28,541.30,344.85,214.40

代码

import numpy as np
from sklearn.cluster import KMeans
def loadData(filePath):
    fr = open(filePath,'r+',encoding='UTF-8')
    lines = fr.readlines() #一次读取整个文件
    retData = [] #消费信息
    retCityName = [] #城市名称
    for line in lines:
        items = line.strip().split(",")
        retCityName.append(items[0])
        retData.append([float(items[i]) for i in range(1,len(items))])
    return retData,retCityName

if __name__=='__main__':
    data,cityName=loadData('city.txt')
    km=KMeans(n_clusters=3)#分成3个簇,进行聚类
    label=km.fit_predict(data) #聚类后各数据所属的标签
    expenses=np.sum(km.cluster_centers_,axis=1)
    # print(expenses)
    CityCluster=[[],[],[]]
    for i in range(len(cityName)):
        CityCluster[label[i]].append(cityName[i])
    for i in range(len(CityCluster)):
        print("平均消费:%.2f"% expenses[i])
        print(CityCluster[i])

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
聚类是一种无监督学习的方法,用于将相似的数据样本归为一类。在聚类biodata_2k3k数据集上进行聚类可以帮助我们发现其中的潜在模式和结构。以下是对该数据集进行聚类的步骤和方法。 首先,我们需要了解biodata_2k3k数据集的特征和属性。该数据集可能包含一些关于生物样本的信息,如生物指纹、基因组数据等。我们可以通过查看数据集的属性和描述来获得更多的信息。 其次,我们可以选择适当的聚类算法来对数据集进行处理。常见的聚类算法包括K均值聚类、层次聚类和DBSCAN等。选择合适的算法可以根据数据集的特点和我们的需求来确定。 然后,我们需要对数据集进行预处理。这包括处理缺失值、标准化数据等。预处理可以帮助我们更好地处理数据,提高聚类的准确性和稳定性。 接下来,我们可以使用聚类算法对数据集进行聚类聚类算法将根据数据的相似性将样本分为不同的簇群。我们可以根据实际需求确定聚类的数量。 最后,我们可以对聚类结果进行评估和分析。评估聚类结果可以使用内部指标(如轮廓系数)或外部指标(如兰德指数)来衡量。分析聚类结果可以帮助我们发现其中的模式和关联性。 总的来说,对biodata_2k3k数据集进行聚类可以帮助我们理解其中的生物样本之间的相似性和关系。通过合适的预处理和选择合适的聚类算法,我们可以得到一组具有相似特征的簇群,从而为后续的分析和应用提供基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值