数据分析之历史上的百年奥运

2020东京奥运会已经结束了,才想起来写一篇关于奥运会的数据分析文章,真是前些天都太热衷于追奥运了。

找了一下,网上果然有从1896第一届现代奥运会开始至2016年里约奥运会的全部数据,当然如果你感兴趣,还可以把2020年的给加上,于是,我们就可以用这些数据来重新回顾一下这100多年来的奥运会历史了!

01 提出问题

奥运会,全称:奥林匹克运动会,发源于2000多年前的古希腊,因举办地在奥林匹亚而得名,每4年一届,是世界上影响力最大的体育盛会。

1896年,停办了1500年的奥运会终于得以重办,这也是首届现代奥运会,如今已举办了32界夏季奥运会,23界冬季奥运会。

我们可以带着以下3个问题来分析这份数据,了解历史。

  1. 地域上,哪些国家/地区举办奥运会次数最多?参赛的运动员最多?获奖最多?
  2. 个人上,历年来男女参赛的运动员表现如何?
  3. 项目上,有没有哪些项目是某些国家/地区的强项?

02 数据探查

数据来源:
https://www.heywhale.com/mw/dataset/5b62ca77a711e60010ab1154

共两份数据,一份athlete_events.csv,包含了参赛运动员基本生物数据和奖牌结果。

一份noc_regions.csv,是国家奥委会3个字母的代码与对应国家信息。

分析工具:Power BI + Excel

1.1 字段介绍

运动员数据包含了从1896年至2016年,历届奥运会每位运动员参赛的数据,共271116行15个字段,每行对应每位运动员参加奥运会项目的信息。

  • ID:每个运动员的唯一编号,共135571个编号
  • Name:运动员姓名
  • Sex:运动员性别,F是女性,M是男性
  • Age:运动员年龄
  • Height:运动员身高,单位cm
  • Weight:运动员体重,单位kg
  • Team:运动员代表队,如中国
  • NOC:国家奥委会三字代码
  • Games:运动员参加的哪一届奥运会
  • Year:年份
  • Season:季节
  • City:主办城市,如北京
  • Sport:运动项目,如篮球
  • Event:具体项目,如男子篮球
  • Medal:奖牌,如金牌、银牌、铜牌或没有

奥委会数据:

  • NOC:国家奥委会3个字母的代码
  • Region:国家/地区
  • Notes:备注

这里需要理解的是:

  • ID号比实际数据量少是因为会有1个运动员参加几个项目的情况,一个运动员对应一个ID编号,而非一条数据对应一个ID。
  • NOC是指国家奥委会三字代码,比如中国的代码是CHN
  • GAMES是用年份+季节命名的哪一届奥运会,比如2016 Summer是2016年夏季奥运会。奥运会其实包含夏季奥运会、冬季奥运会、残奥会等,夏奥会受关注较多,这份数据是包含夏奥会和冬奥会的。
  • TEAM是该运动员所在的代表队,也就是运动员所属的国家/地区。插播一条冷知识,奥运会是以奥委会为代表团参加的,而不是以国家为代表,所以也一直在强调“国家或地区”这个概念,也是为什么台湾会参与,并且是以中华台北的名义,因为中华台北奥委会是国际奥委会的成员,所以它可以参与,历史上它还以“中华民国”的名义参与,被我们抵制了。

将两份数据以NOC为共同字段进行关联,就可以得到每个运动员所属的国家/地区了。

将数据导入Power BI,它会自动设置好关联。

1.2 数据处理

1.2.1 缺失值

这份数据在Age、Height、Weight、Medal列存在缺失值:

  • Medal的缺失值表示该运动员在此项目上没有拿到奖牌,不用处理
  • Age列有9474个缺失值,占比3.5%
  • Height列有60171个缺失值,占比22%
  • Weight列有62875个缺失值,占比23%

年龄、身高、体重属于个人信息ÿ

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

进击的可乐!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值