python聚类分析年龄收入_Python学习100天-Day17(数据分析篇-聚类分析)

本文介绍了如何使用Python进行聚类分析,通过pandas预处理数据,sklearn的K-means方法对NBA球员进行分组。讨论了数据预处理的步骤,包括处理斜杠、空值和重复数据。选取了场均得分和助攻失误比作为分析字段,揭示了聚类结果可能将哈登归为PG类别的原因,并鼓励读者尝试不同的分析维度。
摘要由CSDN通过智能技术生成

Day17-聚类分析

今天我们来一个简单的实战,主要是通过运用pandas库做数据的预处理,然后通过调用sklearn库里面的K-means方法对数据做一个聚类处理,目的是通过聚类分析,将不同位置的球员作一个简单的分组。看看你的明星属于第几档。

K-means:k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数据集。

一、数据预处理

大家先打开复制的数据,要注意到三个问题:第一个是球员名字带斜杠,可能是复制的时候格式的问题;第二个是数据有空值就是所说的NA值;第三是球员转会后名字会出现二次以上。

第一步:提取球员名称:

第二步,填充空值,利用fillna,函数形式:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

nba.fillna(value=0,inplace=True)

第三步,球员合并,仔细观察数据可以发现数据中的球队的TOT字段合并了有个转会球员的数据,我们可以把这个数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值