Day17-聚类分析
今天我们来一个简单的实战,主要是通过运用pandas库做数据的预处理,然后通过调用sklearn库里面的K-means方法对数据做一个聚类处理,目的是通过聚类分析,将不同位置的球员作一个简单的分组。看看你的明星属于第几档。
K-means:k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无监督过程,即待处理数据对象没有任何先验知识,而分类过程为有监督过程,即存在有先验知识的训练数据集。
一、数据预处理
大家先打开复制的数据,要注意到三个问题:第一个是球员名字带斜杠,可能是复制的时候格式的问题;第二个是数据有空值就是所说的NA值;第三是球员转会后名字会出现二次以上。
第一步:提取球员名称:
第二步,填充空值,利用fillna,函数形式:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
nba.fillna(value=0,inplace=True)
第三步,球员合并,仔细观察数据可以发现数据中的球队的TOT字段合并了有个转会球员的数据,我们可以把这个数据