28页 正文 1.8万字
奥运奖牌榜模型
摘要
在 2024 年巴黎举行的最新一届夏季奥运会上,除了观看个人项目外,粉丝们还关注了每个国家的整体“奖牌榜”。最终结果美国的总奖牌数最多(126 枚),中国和美国并列第一金牌榜首位(40 枚)。东道主法国在金牌数(16 枚)排名中位居第五,但在奖牌总数方面排名第四,而英国以14枚金牌排名第七,在奖牌总数方面排名第三。
排行榜顶端的排名总是受到密切关注,但其他国家的奖牌数往往也同样受到重视。例如,阿尔巴尼亚(2 枚奖牌)、佛得角、多米尼加和圣卢西亚(2 枚奖牌)在巴黎奥运会上赢得了本国首枚奥运奖牌。多米尼加和圣卢西亚也分别在这届奥运会上获得了一枚金牌。仍有 60 多个国家尚未赢得奥运奖牌。在奥运会开始之前,通常会对最终奖牌数进行预测,但通常不是基于历史奖牌数,而是在即将举行的奥运会开始前,公布当前计划参赛的运动员。现需要建立一个奥运奖牌榜模型,为每个国家(至少为金牌和奖牌总数)开发一个奖牌计数模型,考虑进退步国家并预测首次获奖的国家及其可能的数量和考虑赛事数量和类型对奖牌数的影响,并分析是否存在“伟大教练”效应,为国家奥林匹克委员会提供有价值的信息具有十分重要的重要意义。
针对问题1,首先进行数据预处理。将运动员信息数据与奖牌统计数据在数据清洗之后进行数据聚合,确保数据的一致性,然后采用随机森林优化的方法预测2028年美国洛杉矶夏季奥运会的奖牌榜,比较2024与2028年的数据,分析国家的进退步程度,同时根据概率算出尚未获奖的国家在下届奥运会获得第一枚奖牌的概率。最后加权比率法来解决比赛项目与各国奖牌数量之间的关系,采用SHAP了哪些特征在模型中起到了重要作用并比较在是否为东道主的情况下判断东道主选择的比赛项目队获得奖牌的影响情况。
针对问题2,选择了三个国家(中国CHN、美国USA和罗马尼亚ROU),来分析“教练效应”对奖牌贡献的程度与其影响。可以通过观察教练更换前后的奖牌变化来量化教练效应,为了更好地进行量化,对于中美女排数据,采用了加权与岭回归的方法预测每年每个国家的奖牌总权重,并通过教练更换对奖牌的影响进行建模赋予金银铜牌分别为3,2,1的权重系数,通过L2正则化来减少模型的复杂度,从而避免过拟合,最终来检查数据中是否存在可能的优秀教练效应。对于美国和罗马尼亚体操数据,进一步进行优化,使用LASSO来分析“优秀教练效应”。
针对问题3,根据问题1与问题2的模型进行总结,为国家奥林匹克委员会(NOC)提供战略性的信息,帮助其制定更有效的政策和计划。
关键词:随机森林,加权比率,岭回归,LASSO,决策建议
一、问题重述
1.1 问题背景
在 2024 年巴黎举行的最新一届夏季奥运会上,除了观看个人项目外,粉丝们还关注了每个国家的整体“奖牌榜”。最终结果美国的总奖牌数最多(126 枚),中国和美国并列第一金牌榜首位(40 枚)。东道主法国在金牌数(16 枚)排名中位居第五,但在奖牌总数方面排名第四,而英国以14枚金牌排名第七,在奖牌总数方面排名第三。
排行榜顶端的排名总是受到密切关注,但其他国家的奖牌数往往也同样受到重视。例如,阿尔巴尼亚(2 枚奖牌)、佛得角、多米尼加和圣卢西亚(2 枚奖牌)在巴黎奥运会上赢得了本国首枚奥运奖牌。多米尼加和圣卢西亚也分别在这届奥运会上获得了一枚金
二、模型假设
为了方便模型的建立与模型的可行性,我们这里首先对模型提出一些假设,使得模型更加完备,预测的结果更加合理。
1、假设给出的数据均为真实数据,真实有效;
2、假设假设奥运会每届增加的运动项目会影响奖牌数量;
3、假设每个国家在奥运会中的奖牌数受到历史表现的影响,并且奖牌数量的增长与某些因素(如选手人数、赛事数量等)相关;
4、奥运会的表现可能会有波动,因此我们考虑奖牌预测的误差或不确定性。例如,某些国家的表现可能会因为“伟大教练效应”而波动;
5、假设不同国家在特定运动项目中表现的差异与该国的传统和重点投资项目有关。因此,一些项目(例如篮球、游泳、田径)可能对某些国家更为重要;
三、问题求解与分析
4.1 问题1求解与分析
4.1.1 问题1分析
针对问题1,首先进行数据预处理。将运动员信息数据与奖牌统计数据在数据清洗之后进行数据聚合,确保数据的一致性,然后采用随机森林的方法预测2028年美国洛杉矶夏季奥运会的奖牌榜,比较2024与2028年的数据,分析国家的进退步程度,同时根据概率算出尚未获奖的国家在下届奥运会获得第一枚奖牌的概率。最后使用加权比率法来解决比赛项目与各国奖牌数量之间的关系,并比较在是否为东道主的情况下判断东道主选择的比赛项目队获得奖牌的影响情况。
4.1.2 问题1建模与求解
1、夏季奥运会奖牌榜的预测
(1)数据准备与预处理
在数据预处理阶段,观察数据的缺失值和异常值情况,对于缺失值采用0进行填补,异常值删除,将清洗后的数据进行数据整合与归一化。由于想要建模美国洛杉矶夏季奥运会奖牌榜的预测模型及其预测区间,所以需要从从summerOly_medal_counts.csv中提取每个国家在过去奥运会中的金牌和总奖牌数据,从summerOly_athletes.csv中提取每个国家的运动员数量、各国在特定项目中的表现等用于数据聚合。
两个文件夹中的国家特征分别用国家地区代码ISO(例如USA)和全称(例如United State)来表示,要想整合到一起,就要保持数据的一致性。选择ISO映射表进行分析,将全名称的国家统一映射成ISO三位代码。对于不在ISO映射表的国家重新进行检查,如果确实则补齐ISO映射表并重新进行数据整合。而对于一些已经不存在的国家(例如Russian Empire (俄罗斯帝国),它解体于1917年。由于它不在现代ISO 3166-1标准中作为一个有效的国家存在,俄罗斯帝国没有对应的现代ISO代码。),没有必要预测2028年的奖牌榜,因此将这些数据统一进行删除。
将运动员数据按国家(NOC)和年份(Year)进行分组,计算每年每个国家的运动员数量(Athletes),并将其与奖牌数据合并,同时还通过 groupby 和 size 函数计算每个国家在每个年份的赛事数量(Events)。随后,这些数据被与奖牌数据合并,形成数据集。
(2)计算率增长
为了预测未来奥运会的奖牌数量,通过历史数据计算每个国家在过去几年中的奖牌增长率。该增长率被用于预测2028年每个国家的运动员人数和赛事数量。给定一个数据集 df,包含多个国家和年份的奖牌或其他相关数据。每个国家有多个年份的数据点。我们将对每个国家的数据进行分组,计算该列的增长率。
1)增长率计算
对于某个国家 ,设其在年纷 的数据为 ,在年纷 的数据为 .
增长率 可以通过下列公式计算:
(3)随机森林回归模型进行奖牌预测
通过使用 RandomForestRegressor,模型对每个国家的金牌数和总奖牌数进行预测。训练数据包括年份、运动员数量和赛事数量,目标变量是金牌数和总奖牌数。数据被拆分为训练集和测试集,以评估模型的性能。其流程如图1所示。
随机森林是一种集成学习方法,具体来说是装袋法(Bagging,Bootstrap Aggregating)的一种应用。它通过训练多棵决策树来进行预测,并结合这些树的结果来提高模型的预测能力和稳定性。每棵决策树都是通过训练数据的随机子集生成的。随机森
随机森林优化:随机森林回归有多个可调的超参数,可以通过调优这些超参数来提高模型性能。也使用交叉验证来评估模型的表现,以确定最优的超参数。通过在不同的训练集和验证集组合上反复训练和测试模型,交叉验证可以帮助选择使模型泛化能力最好的参数。本模型在随机森林的基础上加入了交叉验证法进行验证,进一步来提升模型的性能,减少过拟合,提高模型的泛化能力。
随机森林回归器通过多棵树的集成来对每个国家在2028年可能获得的金牌和总奖牌数量进行预测。模型训练后,通过均方误差(MSE)来评估其性能。
(4)预测2028奖牌数(金牌与总奖牌数)
在计算完2024年数据后,代码预测了2028年每个国家的奖牌数量。具体地,对于每个国家,基于其增长率、2024年运动员人数和赛事数量,预测其金牌数和总奖牌数,并计算预测的区间。同时,模型计算了每个预测的标准差,以衡量预测的不确定性,并为每个国家提供了奖牌数预测的区间。最终输出结果保存在2028_predictions_by_country.csv当中。
表1 2028奥运会不同国家奖牌榜与结果预测区间(部分)
NOC | Predicted Gold Medals for 2028 | Predicted Total Medals for 2028 | Gold Prediction Interval | Total Prediction Interval |
USA | 41.53333333333333 | 128.77333333333334 | 0 | 2.842170943040401e-14 |
GRC | 1.2866666666666666 | 6.58 | 2.220446049250313e-16 | 8.881784197001252e-16 |
DEU | 13.073333333333334 | 36.16 | 3.552713678800501e-15 | 1.4210854715202004e-14 |
FRA | 15.973333333333333 | 63.07 | 0 | 0 |
GBR | 18.25 | 63.29 | 0 | 7.105427357601002e-15 |
HUN | 6.156666666666666 | 19.316666666666666 | 8.881784197001252e-16 | 3.552713678800501e-15 |
AUT | 1.42 | 4.636666666666667 | 4.440892098500626e-16 | 8.881784197001252e-16 |
AUS | 16.756666666666668 | 52.93 | 3.552713678800501e-15 | 0 |
DNK | 2.216666666666667 | 9.983333333333333 | 4.440892098500626e-16 | 1.7763568394002505e-15 |
(5)国家获得奖牌进退步情况
要分析哪些国家最有可能进步,哪些国家可能表现不如2024年,可以根据2024年和2028年的金牌预测数进行比较。如果2028年的金牌数大于2024年(预测值),那么认为该国家有进步。反之则认为该国家的表现可能会退步。公式如下
表1 2028奥运会不同国家奖牌榜与结果预测区间(部分)
NOC | Predicted Gold Medals for 2028 | Predicted Total Medals for 2028 | Gold Prediction Interval | Total Prediction Interval |
USA | 41.53333333333333 | 128.77333333333334 | 0 | 2.842170943040401e-14 |
GRC | 1.2866666666666666 | 6.58 | 2.220446049250313e-16 | 8.881784197001252e-16 |
DEU | 13.073333333333334 | 36.16 | 3.552713678800501e-15 | 1.4210854715202004e-14 |
FRA | 15.973333333333333 | 63.07 | 0 | 0 |
GBR | 18.25 | 63.29 | 0 | 7.105427357601002e-15 |
HUN | 6.156666666666666 | 19.316666666666666 | 8.881784197001252e-16 | 3.552713678800501e-15 |
AUT | 1.42 | 4.636666666666667 | 4.440892098500626e-16 | 8.881784197001252e-16 |
AUS | 16.756666666666668 | 52.93 | 3.552713678800501e-15 | 0 |
DNK | 2.216666666666667 | 9.983333333333333 | 4.440892098500626e-16 | 1.7763568394002505e-15 |
(5)国家获得奖牌进退步情况
要分析哪些国家最有可能进步,哪些国家可能表现不如2024年,可以根据2024年和2028年的金牌预测数进行比较。如果2028年的金牌数大于2024年(预测值),那么认为该国家有进步。反之则认为该国家的表现可能会退步。公式如下