数据分析实战之K-Means（给球队做聚类）

最新推荐文章于 2022-11-28 12:49:48 发布

柚子哦

最新推荐文章于 2022-11-28 12:49:48 发布

阅读量2.5k

点赞数

分类专栏：数据分析实战

本文链接：https://blog.csdn.net/hahaha66888/article/details/88017956

版权

本文介绍了一次使用K-Means对2015-2019亚洲球队排名进行聚类分析的实战过程。首先，数据经过加载和Min-max规范化预处理，然后应用K-Means进行聚类，最后将聚类结果插入到原始数据中。在操作中，特别提到了如何处理数据类型转换和列名重命名的问题。

摘要由CSDN通过智能技术生成

数据来源是简单整理的2015-2019亚洲球队的排名，如下图所示。通过K-Means做简单聚类分析。

1、数据加载

import numpy as np
import pandas as pd


data = pd.read_csv(r'C:\Users\hzjy\Desktop\data.csv',encoding='gbk')

train_x = data[['2019年国际排名','2018世界杯','2015亚洲杯']]

df = pd.DataFrame(train_x)

2、聚类一般要做数据标准化处理，采用Min-max 规范化

from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler()
train_x = min_max_scaler.fit_transform(train_x)

3、K-Means聚类

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=5)
kmeans.fit(train_x)
predict_y = kmeans.predict(train_x)

4、合并聚类结果

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

柚子哦

关注关注

0
点赞
踩
23

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

K均值聚类--利用k-means算法分析NBA近四年球队实力

黎荣恒的博客

05-04

9013

分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。聚类属于无监督学习，相比于分类，聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类的基础——距离与相异度，然后介绍一种常见的聚类算法——k-mea

Hadoop实现K_means聚类算法（对NBA球队进行聚类分析）

Blssel的博客

07-13

5838

利用Hadoop完成对NBA 30支球队球风的聚类本程序完成了Hadoop下，利用MapReduce思想实现K_means聚类算法。

2 条评论您还未登录，请先登录后发表或查看评论

利用kmeans聚类算法对五大联赛球队实力进行分析

松鼠

03-09

2141

利用聚类算法对五大联赛球队实力进行分析数据整理从给的5张表中把数据进行整理，把不必要的数据进行删除，如德甲、法甲等名字;排名、场次这两列对数据的聚合影响不大进行去除，同时将红/黄牌数据列进行剔除，最后保留的信息如图1所示。正在上传…重新上传取消把5张表分别做同样的处理保留在该Excel的Sheet2表中。特别说明18-19年的数据中，德甲的数据都是总场数的数据需要转为场均数...

Kmeans 聚类算法评估足球比赛

oxuzhenyi的博客

07-10

5997

Spark MLlib 机器学习—Kmeans 聚类算法分析足球比赛一、实验介绍 1.1 内容介绍 K-means 算法采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为类簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means 算法以欧式距离作

用k-means对亚洲足球队做聚类

元气满满晨

02-23

5079

背景知识亚足联AFC： 1954年成立，总部马来西亚吉隆坡。负责管理亚洲区足球事务，举办各项国家级及俱乐部级赛事，协助国际足联举行世界杯预选赛及4年一度的亚洲杯。 47个成员协会，包括阿富汗、缅甸、中国台北、中国香港、印度尼西亚、日本、韩国、巴基斯坦、菲律宾、新加坡、越南等。分为两大势力——东亚及西亚，东亚包括有日本、韩国、中国、澳大利亚（来自大洋洲的澳大利亚于2006年加入亚足联），西亚有...

kmeans聚类算法_k-means聚类算法原理与参数调优详解

weixin_39914732的博客

10-22

2846

k-means算法原理K-means中心思想：事先确定常数K，常数K意味着最终的聚类类别数，首先随机选定初始点为质心，并通过计算每一个样本与质心之间的相似度(这里为欧式距离)，将样本点归到最相似的类中，接着，重新计算每个类的质心(即为类中心)，重复这样的过程，直到质心不再改变，最终就确定了每个样本所属的类别以及每个类的质心。由于每次都要计算所有的样本与每一个质心之间的相似度，故在大规模的数据集上，...

K-Means聚类算法演示及可视化展示123456789#导入包from sklearn.cluster import KMeansX = [[0.0888, 0.5885],

最新发布

jh035512的博客

11-28

639

自然语言处理的核心概念之一是如何量化单词和表达式，以便能够在模型环境中使用它们。语言元素到数值表示的这种映射称为词嵌入。Word2Vec是一个词嵌入过程。这个概念相对简单：通过一个句子一个句子地在语料库中循环去拟合一个模型，根据预先定义的窗口中的相邻单词预测当前单词。为此，它使用了一个神经网络，但实际上最后我们并不使用预测的结果。一旦模型被保存，我们只保存隐藏层的权重。在我们将要使用的原始模型中，有300个权重，因此每个单词都由一个300维向量表示。请注意，两个单词不必彼此接近的地方才被认为是相似的。

机器学习实战-聚类分析KMEANS算法-25

gemoumou的python学习实记

02-20

642

KMEANS算法-NBA球队实力聚类分析 from sklearn.cluster import KMeans import numpy as np import matplotlib.pyplot as plt import pandas as pd from sklearn.preprocessing import MinMaxScaler data = pd.read_csv('nba.csv') data.head() minmax_scaler = MinMaxScaler() # 标准化

[小白系列][K-means聚类模型]球队聚类分析实例代码详解

KaelCui的博客

04-16

870

K-Means工作原理 • Step1, 选取K个点作为初始的类中心点，这些点一般都是从数据集中随机抽取的； • Step2, 将每个点分配到最近的类中心点，这样就形成了K个类，然后重新计算每个类的中心点； • 重复Step2，直到类不发生变化，或者你也可以设置最大迭代次数，这样即使类中心点发生变化，但是只要达到最大迭代次数就会结束。数据规范化的方式： • Min-max规范化将原始数据投射到...

Python的kemans聚类和数据标准化

dltan

12-11

2852

python的输出对象到excel文件中，对数据进行标准化，进行kemans聚类。

机器学习项目实战——15Kmeans算法之NBA球队实力聚类分析

weixin_45823221的博客

04-27

1074

机器学习项目实战——15Kmeans算法之NBA球队实力聚类分析

聚类之亚洲足球排名数据集（kmeans、GMM）

我的博客

09-30

757

一、代码在这里插入代码片# coding: utf-8 from sklearn.cluster import KMeans from sklearn import preprocessing import pandas as pd import numpy as np # 数据加载 data = pd.read_csv('team_cluster_data.csv', encoding='gbk') train_x = data[["2019国际排名","2018世界杯排名","2015亚洲杯排名"]

【20210924】【机器/深度学习】基于亚洲球队数据，讲解K-Means算法原理和 Python 函数库使用方法

诗小葵的博客

09-24

738

一、问题下面整理了 2015-2019 年亚洲球队的排名，如下表所示。其中 2019 年国际排名和 2015 年亚洲杯排名均为实际排名。2018 年世界杯中，很多球队没有进入到决赛圈，只有进入到决赛圈的球队才有实际的排名。如果是亚洲区预选赛 12 强的球队，排名会设置为40；如果没有进入到亚洲区预选赛 12 强，球队排名会设置成 50。数据集：cystanford kmeans实战图片及代码 31804b9 （参考：白话机器学习算法理论+实战之...

数据挖掘十大经典算法之 K-Means算法

MannerXu的博客

08-20

517

一：非监督中的Kmean算法分类聚类(clustering) 属于非监督学习 (unsupervised learning),无类别标记(class label). 观察下图，相同类别的通过属性之间的相似性聚集在一起，算法中并未涉及类别标记的问题。二：K-means 算法详解 K-几个聚类中心 Mean-均值，每次迭代的时候使用均值方式迭代 Clustering 中的经典算法...

机器学习实践：足球比赛聚类分析--11

奔腾游子

01-21

3257

机器学习实践：足球比赛聚类分析 1、实验描述本实验利用K-Means聚类分析算法对足球比赛结果进行分析，该算法通过Sprak Mllib库来调用，我们将学习K-Means算法的K值选取，聚类原理等内容，理解聚类算法在实际业务中的应用场景实验时长：45分钟主要步骤： KMeans算法简介 Spark Mllib库简介数据准备代码编写 2、实验环境虚拟机数量：1 系统版本：CentOS 7.5 Spark版本：spark-2.1.1-bin-hadoo

k-means聚类后按标签大小顺序排列标签

yangzhijun6699的博客

02-03

2990

k-meas聚类后按标签大小顺序排列标签数据目标方法代码效果数据目标为上面的学生分数，聚类成优、良、中、差、四类方法主要是聚类后，怎么把标签对应到原始数据中去，这里我们采用掩码的方式代码 from sklearn.cluster import KMeans import pandas as pd data=pd.read_csv("kmeanstest.csv",sep=",") print(data) X =data["score"].to_numpy().reshape(-1,1) km

基于K-Means聚类算法对NBA球员数据的聚类分析

xxzaa的博客

07-30

6205

聚类分析的研究成果主要集中在基于距离（或者称为基于相似度）的聚类方法，用距离来作为相似性度量的优点是十分直观，从我们对物体的识别角度来分析，同类的数据样本是相互靠近的，不同类样本应该相聚较远。K-Means聚类算法是划分聚类方法中最常用、最流行的经典算法，许多其他的算法都是K-Means聚类算法的变种。其主要思想是通过迭代过程将数据集划分为不同类别，使评价聚类性能的准则函数达到最优，使生成的每个聚类类内紧凑，类间独立。本文介绍并实践了一种无监督的聚类算法——K-Means聚类，结合“簇内离差平方和

手把手的K-means聚类算法教程（含简介及教育数据应用实例 Python实现）

weixin_43689393的博客

10-29

5560

无监督学习K-MEANS聚类算法的实操过程。多维教育行为数据转换，数据标准化/归一化，K值的选择，聚类的评价

优化K-means算法确定最佳聚类数研究

本文主要探讨了在数据挖掘中的聚类分析问题，特别是针对K-means算法在确定最佳聚类数目时面临的挑战。K-means是一种广泛应用的无监督学习算法，它通过迭代过程将数据集分割成K个簇，使得每个簇内的数据点彼此相似，...