c题是看上去比较符合传统数学建模的一道题,应该也是属于比较好写的一类。
问题重述
本问题要求我们基于2024年巴黎夏季奥运会的奖牌榜数据以及其他历史奥运会的数据,构建一个数学模型来预测各国在2028年美国洛杉矶夏季奥运会上的表现。该模型需要考虑以下几个方面:
-
奖牌数建模与预测
- 构建一个模型,能够预测每个国家的金牌数量和总的奖牌数量。
- 评估模型的不确定性/精确度,并提供衡量模型性能的方法。
- 预测2028年洛杉矶奥运会的奖牌榜情况,包括所有结果的预测区间。
- 分析哪些国家的成绩最有可能提高或下降,并给出理由。
- 对于尚未获得过奖牌的国家,预测有多少个国家可能在下届奥运会中赢得首枚奖牌,并给出这一估计的概率。
- 研究特定奥运会的项目(数量和类型)对国家奖牌数的影响。
- 探索哪些运动项目对于不同国家最为重要。
- 分析本国选择的项目如何影响最终的结果。
-
“伟大教练”效应的研究
- 搜索数据以寻找由著名教练员转移执教国所引起的变化的证据。
- 估计这种效应对奖牌数的具体影响。
- 选择三个国家,确定它们应投资于“优秀”教练的体育项目,并估算其对奖牌数的潜在影响。
针对任务一
我们可以思考当年的主办国是否可以对本国队伍的奖牌数产生影响,因为一般来说在主场都存在优势。
1. 数据预处理与特征工程
数据整合:
-
合并历史奖牌榜、主办国信息、每届奥运会项目数量及类型,形成面板数据(国家-年份层面)。
-
添加变量:
-
Host
(虚拟变量,1=主办国,0=其他) -
Event_Change
(项目数量变化,当前届项目数 - 上届项目数) -
Past_Medals
(过去3届奖牌数的移动平均) -
Country_Sport_Strength
(国家在特定项目的历史奖牌占比)
-
处理首次参赛国家:
-
对于无历史奖牌的国家,使用其运动员的个人数据(如参赛项目、历史排名)构建特征:
-
Athlete_Top8_Rate
(运动员进入前8名的比例) -
Focus_Sport_Alignment
(该国运动员主攻项目与当届新增项目的匹配度)
-
2. 模型构建
奖牌数预测模型(金牌和总数)
采用 面板负二项回归 处理过离散的计数数据:
-
因变量:国家 ii 在年份 tt 的奖牌数 yityit(服从负二项分布)
-
自变量:
-
Past_Medals:国家 ii 过去三届奖牌数的加权平均(近期权重更高)
-
Host:主办国效应(系数 β2 预期为正)
-
Event_Changet:项目数量变化(影响奖牌池大小)
-
γ:国家随机效应(捕捉未观察到的国家特征)
-
-
参数估计:极大似然估计(MLE),使用历史数据拟合。
首次获奖国家预测模型
采用 Logistic回归 估计国家 ii 在下一届获得首枚奖牌的概率:
-
特征:
-
Athlete_Top8_RateiAthlete_Top8_Ratei:该国运动员在近两届进入前8名的比例
-
Focus_Sport_AlignmentiFocus_Sport_Alignmenti:该国重点项目的运动员数量与当届新增项目的重合度(如新增滑板,该国是否有大量滑板选手)
-
3. 模型验证与性能评估
奖牌数预测模型:
-
时间序列交叉验证:以1984-2016年为训练集,预测2020和2024年数据(作为测试集),计算:
-
MAE(平均绝对误差):衡量预测值与实际值的平均偏差
-
RMSE(均方根误差):惩罚较大误差
-
Coverage Rate:预测区间(如95%)覆盖实际值的比例
-
根据这些误差,使用多模型对比,去寻找最优的模型
首次获奖模型:
-
ROC-AUC:评估分类器区分能力
-
Brier Score:衡量概率预测的校准程度
从运动员层面进行计算和预测,然后再合成 到国家层面 。