1、Kmeans 聚类算法评估足球比赛

最新推荐文章于 2023-01-16 18:14:36 发布

温醉否忆

最新推荐文章于 2023-01-16 18:14:36 发布

阅读量1.4k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_45720792/article/details/117413872

版权

本文使用Spark-2.4.5和Scala-2.12.10环境，通过Kmeans聚类算法分析2006年~2010年的足球比赛数据。数据经过预处理，KMeans迭代3次，结果显示中国被分到较差的子集，表明中国足球需提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实验资源

data.txt

实验环境

VMware Workstation
Ubuntu 16.04
Spark-2.4.5
Scala-2.12.10

实验内容

利用Spark机器学习库中Kmeans算法分析足球赛事

实验步骤

一、数据集介绍

序号	国别	2006年世界杯	2007年亚洲杯	2010年世界杯
1	韩国	17	3	15
2	沙特	28	2	40
3	卡塔尔	50	9	40
4	泰国	50	9	50
5	越南	50	5	50
6	中国	50	9	50
7	巴林	40	9	50
8	阿联酋	50	9	50
9	伊朗	25	5	40
10	日本	28	4	9

根据数据可以得知这 10支球队在 2006 年~ 2010 年的比赛情况，其中包括两次世界杯和一次亚洲杯。图片中的数据做了如下预处理：对于亚洲杯，前四名取其排名，十六强赋予 9，八强赋予 5，预选赛没出现的赋予 17。对于世界杯，进入决赛圈则取其最终排名，没有进入决赛圈的，打入预选赛十强赛赋予 40，预选赛小组未出线的赋予 50。这样做方便我们接下来使用数据。

我们可以把这些数据存储为data.txt。

使用 vi 命令创建并编辑 data.txt