1、Kmeans 聚类算法评估足球比赛

实验资源

data.txt

实验环境

VMware Workstation
Ubuntu 16.04
Spark-2.4.5
Scala-2.12.10

实验内容

利用Spark机器学习库中Kmeans算法分析足球赛事

实验步骤

一、数据集介绍
序号 国别 2006年世界杯 2007年亚洲杯 2010年世界杯
1 韩国 17 3 15
2 沙特 28 2 40
3 卡塔尔 50 9 40
4 泰国 50 9 50
5 越南 50 5 50
6 中国 50 9 50
7 巴林 40 9 50
8 阿联酋 50 9 50
9 伊朗 25 5 40
10 日本 28 4 9

根据数据可以得知这 10支球队在 2006 年~ 2010 年的比赛情况,其中包括两次世界杯和一次亚洲杯。图片中的数据做了如下预处理:对于亚洲杯,前四名取其排名,十六强赋予 9,八强赋予 5,预选赛没出现的赋予 17。对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予 40,预选赛小组未出线的赋予 50。这样做方便我们接下来使用数据。

我们可以把这些数据存储为data.txt。

使用 vi 命令创建并编辑 data.txt

$ vi data.txt

添加如下内容,字段之间用空格分隔,并保存。

17 3 
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值