8月8日,东京奥运会正式落下帷幕。经过17天的激烈角逐,中国代表团在本届奥运会上共斩获38金32银18铜,位居奖牌榜第二,追平了在伦敦奥运会取得的境外参赛最好成绩。
奥运会期间,奖牌榜上的每一次变动都牵动着全国人民的心。在为奥运健儿们取得好成绩欢呼、呐喊的同时,我们也对中国代表团从1984年重返奥运会以来的近十届夏季奥运会“掘金史”进行了回顾。基于开源和公开数据,我们使用数据可视化分析工具Tableau对中国奥运相关数据进行了可视化探索。以下是我们进行数据探索的过程和结果。
数据预处理
数据源说明
我们使用的开源数据来自Kaggle,数据源地址:https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results。这份数据对历届奥运会上各国运动员的相关情况进行了描述,包括姓名(Name)、性别(Gender)、年龄(Age)、身高(Height)、体重(Weight)、国籍(Team)、参赛项目(Sport)、比赛成绩(Medal)等字段。同时,我们也根据公开数据,将2021年东京奥运会上中国代表团的相关数据进行了补充。
数据预处理过程
-
首先,我们根据国籍(Team)字段从开源数据中筛选、导出中国运动员相关数据;
-
根据预先拟定的数据分析维度,在Hive中创建新表,然后将导出的离线数据插入到新建表中;
-
针对Gender、Age、Year、Sport、Medal等相关字段对源数据进行预处理,包括空值填充、同义字段整合、无效字段剔除等操作;
-
基于数据展示需求,对相关字段进行分组、聚合、去重等计算操作,为可视化分析做好数