实验资源
data.txt
实验环境
VMware Workstation
Ubuntu 16.04
Spark-2.4.5
Scala-2.12.10
实验内容
利用Spark机器学习库中Kmeans算法分析足球赛事
实验步骤
一、数据集介绍
序号 | 国别 | 2006年世界杯 | 2007年亚洲杯 | 2010年世界杯 |
---|---|---|---|---|
1 | 韩国 | 17 | 3 | 15 |
2 | 沙特 | 28 | 2 | 40 |
3 | 卡塔尔 | 50 | 9 | 40 |
4 | 泰国 | 50 | 9 | 50 |
5 | 越南 | 50 | 5 | 50 |
6 | 中国 | 50 | 9 | 50 |
7 | 巴林 | 40 | 9 | 50 |
8 | 阿联酋 | 50 | 9 | 50 |
9 | 伊朗 | 25 | 5 | 40 |
10 | 日本 | 28 | 4 | 9 |
根据数据可以得知这 10支球队在 2006 年~ 2010 年的比赛情况,其中包括两次世界杯和一次亚洲杯。图片中的数据做了如下预处理:对于亚洲杯,前四名取其排名,十六强赋予 9,八强赋予 5,预选赛没出现的赋予 17。对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予 40,预选赛小组未出线的赋予 50。这样做方便我们接下来使用数据。
我们可以把这些数据存储为data.txt。
使用 vi
命令创建并编辑 data.txt
$ vi data.txt
添加如下内容,字段之间用空格分隔,并保存。
17 3