应用聚类算法,预测中国足球在亚洲处于什么水平
⚠申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址。 全文共计4167字,阅读大概需要10分钟
🌈更多学习内容, 欢迎👏关注👀【文末】我的个人微信公众号:不懂开发的程序猿
⏰个人网站:https://jerry-jy.co/❗❗❗知识付费,🈲止白嫖,有需要请后台私信或【文末】个人微信公众号联系我
一、业务场景
受某体育公司委托,拟根据以往亚洲各足球队参赛数据,对中国足球在亚洲处于什么水平进行分析。经过讨论,决定采用K-Means聚类算法来进行分析。
二、数据集说明
本案例所使用的数据集,说明如下:
根据数据来源的描述,提前对数据做了如下预处理,使得所有数据变为标量,便于后续聚类:
• 对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予40,预选赛小组未出线的赋予50。
• 对于亚洲杯,前四名取其排名,八强赋予5,十六强赋予9,预选赛没出现的赋予17。
上面表格中的数据存储在”/data/dataset/ml/soccer.txt”文件中,属性之间用空格分割:
1. country 2006 2010 2007
2. 中国 50 50 9
3. 日本 28 09 4
4. 韩国 17 15 3
5. 伊朗 25 40 5
6. 沙特 28 40 2
7. 伊拉克 50 50 1
8. 卡塔尔 50 40 9
9. 阿联酋 50 40 9
10. 乌兹别克斯坦 40<