2020东京奥运会已经结束了,才想起来写一篇关于奥运会的数据分析文章,真是前些天都太热衷于追奥运了。
找了一下,网上果然有从1896第一届现代奥运会开始至2016年里约奥运会的全部数据,当然如果你感兴趣,还可以把2020年的给加上,于是,我们就可以用这些数据来重新回顾一下这100多年来的奥运会历史了!
01 提出问题
奥运会,全称:奥林匹克运动会,发源于2000多年前的古希腊,因举办地在奥林匹亚而得名,每4年一届,是世界上影响力最大的体育盛会。
1896年,停办了1500年的奥运会终于得以重办,这也是首届现代奥运会,如今已举办了32界夏季奥运会,23界冬季奥运会。
我们可以带着以下3个问题来分析这份数据,了解历史。
- 地域上,哪些国家/地区举办奥运会次数最多?参赛的运动员最多?获奖最多?
- 个人上,历年来男女参赛的运动员表现如何?
- 项目上,有没有哪些项目是某些国家/地区的强项?
02 数据探查
数据来源:
https://www.heywhale.com/mw/dataset/5b62ca77a711e60010ab1154
共两份数据,一份athlete_events.csv,包含了参赛运动员基本生物数据和奖牌结果。
一份noc_regions.csv,是国家奥委会3个字母的代码与对应国家信息。
分析工具:Power BI + Excel
1.1 字段介绍
运动员数据包含了从1896年至2016年,历届奥运会每位运动员参赛的数据,共271116行15个字段,每行对应每位运动员参加奥运会项目的信息。
- ID:每个运动员的唯一编号,共135571个编号
- Name:运动员姓名
- Sex:运动员性别,F是女性,M是男性
- Age:运动员年龄
- Height:运动员身高,单位cm
- Weight:运动员体重,单位kg
- Team:运动员代表队,如中国
- NOC:国家奥委会三字代码
- Games:运动员参加的哪一届奥运会
- Year:年份
- Season:季节
- City:主办城市,如北京
- Sport:运动项目,如篮球
- Event:具体项目,如男子篮球
- Medal:奖牌,如金牌、银牌、铜牌或没有
奥委会数据:
- NOC:国家奥委会3个字母的代码
- Region:国家/地区
- Notes:备注
这里需要理解的是:
- ID号比实际数据量少是因为会有1个运动员参加几个项目的情况,一个运动员对应一个ID编号,而非一条数据对应一个ID。
- NOC是指国家奥委会三字代码,比如中国的代码是CHN
- GAMES是用年份+季节命名的哪一届奥运会,比如2016 Summer是2016年夏季奥运会。奥运会其实包含夏季奥运会、冬季奥运会、残奥会等,夏奥会受关注较多,这份数据是包含夏奥会和冬奥会的。
- TEAM是该运动员所在的代表队,也就是运动员所属的国家/地区。插播一条冷知识,奥运会是以奥委会为代表团参加的,而不是以国家为代表,所以也一直在强调“国家或地区”这个概念,也是为什么台湾会参与,并且是以中华台北的名义,因为中华台北奥委会是国际奥委会的成员,所以它可以参与,历史上它还以“中华民国”的名义参与,被我们抵制了。
将两份数据以NOC为共同字段进行关联