女子举重问题_评选举重冠军模型matlab-CSDN博客

本文链接：https://blog.csdn.net/qq_60498436/article/details/129337738

一、问题的描述

问题及要求

1、搜集各个级别世界女子举重比赛的实际数据。分别建立女子举重比赛总成绩的线性模型、幂函数模型、幂函数改进模型，并最终建立总冠军评选模型。

应用以上模型对最近举行的一届奥运会女子举重比赛总成绩进行排名，并对模型及结果进行必要的分析。

2、请对以上模型作进一步的改进，或提出更好的模型，并应用模型进行排名。

3、同样对最近举行的一届奥运会所有男女举重冠军行进评选，选出1名最优秀的举重运动员，给出你的定量评选方法并合理论述。

4、由以上研究过程及结果结论的启发，你认为这个模型可以推广应用到生活或学习中的哪些情况下，或者应该对生活或学习中哪些事物现有的处理方式需要做出改进，请给出你的分析。

说明：完成一篇建模论文。（具体资料及提交要求见说明文件）

二、搜集资料和数据

1.级别的划分

以下括号内容均为网上的查阅资料

（男子举重原有8个级别是：56、62、69、77、85、94、105公斤级和105公斤以上级，于2018年由国际举联调整新的10个级别是55（非奥）、61、67、73、81、89（非奥）、96、102（非奥）、109公斤级和109公斤以上级共10个级别。女子举重原来7个级别是：48、53、58、63、69、75公斤级和75公斤级以上级，新的10个级别也调整为：45（非奥）、49、55、59、64、71（非奥）、76、81（非奥）、87公斤级和87公斤以上级。男女6个非奥级别只在奥运会以外的赛事举行。）

在本题目中，我们按照奥运会的规定来进行求解，规定为8个级别（在下面做的时候用的是10个级别）

男运动员：61、67、73、81、96、109、109以上

女运动员：49、55、59、64、76、87、87以上

2.搜集数据

数据来源：

女子举重世界纪录_国家体育总局 (sport.gov.cn)（旧纪录不可用，这是一个注意点，一定要注意，要用2018以后的数据，新标准之下的记录）

图1.旧标准的记录

可用数据网站（需要科学上网）：https://zh.wikipedia.org/zh-hans/%E8%88%89%E9%87%8D%E4%B8%96%E7%95%8C%E7%B4%80%E9%8C%84%E5%88%97%E8%A1%A8#%E5%A5%B3%E5%AD%90

在这个网站里面，我们需要选取，当前记录这一栏目，千万千万千万记住，不要用旧纪录这一栏，因为在2018年之后男子和女子的分类的级别已经改变。

图2.男子新记录

图3.女子新纪录

三、第一问

1.分别绘制抓举、挺举、总和下的散点图如下：

图4.体重和举重重量的散点趋势图

分析图形可能为线性关系、非线性关系（指数、对数等）。

散点图代码如下（python）：

#引入相应的库
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

#读取数据
data=pd.read_excel("data.xlsx",sheet_name="女子")
#选取抓举、挺举、总和
data_1=data[data["class"]=="抓举"].sort_values("weight")
data_2=data[data["class"]=="挺举"].sort_values("weight")
data_3=data[data["class"]=="总和"].sort_values("weight")
#筛选出自变量和因变量
x1=data_1["weight"].values
y1=data_1["record"].values
x2=data_2["weight"].values
y2=data_2["record"].values
x3=data_3["weight"].values
y3=data_3["record"].values

#解决中文乱码和符号显示的问题
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['font.sans-serif']=['Microsoft YaHei']
#绘制散点图
plt.figure(figsize=(10,8),dpi=300)
plt.title("体重和举重重量散点趋势图",fontsize="16")
plt.xlabel("体重/kg",fontsize="14")
plt.ylabel("举重重量/kg",fontsize="14")
plt.scatter(x1,y1,color="red",label="抓举")
plt.scatter(x2,y2,color="blue",label="挺举")
plt.scatter(x3,y3,color="green",label="总和")
plt.grid(True)
plt.legend()
plt.savefig("1.png")

2.线性拟合

拟合图如下

计算结果

从上面的结果中我们可以看出，当多项式的最高次数大于4次的时后，虽然模型的R的平方较好，但是不符合实际情况，属于过拟合现象，上面的参数RMSE和MAE来计算误差的话，无法排除离群点的影响，所以采用了MAPE来计算误差的话，这样就排除离群点对模型的影响。这个多项式拟合可以用到第二问当中去，作为模型的改进。

2.幂函数拟合

3.改进幂函数的拟合

4.标准统一化

三、第二问（多项式拟合）

from scipy.interpolate import interp1d
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import r2_score
 
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
plt.figure(figsize=(20,15),dpi=300)
plt.title("总成绩拟合图",fontsize=16)
plt.xlabel("体重",fontsize=14)
plt.ylabel("举重重量",fontsize=14)
for i in range(1,9):
    x_new = np.linspace(40, 100, 1000) # 生成新的x轴数据
    coefficients = np.polyfit(x3, y3, i) # 用5次多项式进行拟合
    poly = np.poly1d(coefficients) # 生成多项式函数
    # 绘图
    plt.subplot(2,4,i)
    plt.subplots_adjust(left=None, bottom=0.1, right=None, top=None,wspace=None, hspace=None)
    plt.grid(True)
    plt.scatter(x3,y3,marker="o",color="red", label='原始数据')
    plt.plot(x_new, poly(x_new), label=str(i)+'次多项式拟合')
    plt.legend(loc="upper left")
plt.savefig("2.png")

# 计算拟合后的数值
for i in range(1,9):
    coefficients = np.polyfit(x3, y3, i) # 用5次多项式进行拟合
    poly = np.poly1d(coefficients) # 生成多项式函数
    y_poly = poly(x_new)
    # # 计算RMSE和MAE
    # rmse_cubic = np.sqrt(np.mean((y - f_cubic(x))**2))
    # mae_cubic = np.mean(np.abs(y - f_cubic(x)))
    rmse_poly = np.sqrt(np.mean((y3 - poly(x3))**2))
    mae_poly = np.mean(np.abs(y3 - poly(x3)))
    mape_poly=np.mean(np.abs(y3-poly(x3))/poly(x3))

    # 打印RMSE和MAE
    print(str(i)+"次多项式拟合的RMSE和MAE分别为：{:.2f}，{:.2f}".format(rmse_poly, mae_poly))
    print(str(i)+"次多项式拟合的MAPE分别为：{:.2f}".format(mape_poly))
    print(poly)
    y_poly = poly(x_new)
    # 计算R平方
    r2_poly = r2_score(y3, poly(x3))
    # 打印R平方
    print(str(i)+"次多项式拟合的R平方为：{:.2f}".format(r2_poly))
    print("\n")

可能大家会有疑问，为什么要用多项式拟合，而不去用其它函数呢？在这里就是用到泰勒公式的简单应用，用多项式近似地表示函数的公式称为泰勒公式，并且根据余项表达式的不同而有不同的形式。得名于英国数学家布鲁克·泰勒，他在1712年的一封信里首次叙述了这个公式。嘿嘿这个大家大一的高数应该都是学过滴！

关于相关数学理论请看这篇文章（其实可以忽略，想了解的可以看下，记住结论就行，不用难为自己）：

泰勒公式简单应用：多项式近似表示任意函数 - 知乎 (zhihu.com)

基于4次多项式的改进模型

从图中可以清晰的看出：在4次多项式的条件下候志惠的标准的分最高。

为什么和前面的不一样呢?大家可能有疑问，但是在下面可以做一个实验，当多项式的最高次大于等于1时，模型所评选的女子冠军均为候志惠，这说明多项式的拟合精度更高，更加具有稳定性和可信性。

在这就不再一一列举了，从上面可以观察出随着最高次数的增加，模型逐渐趋于稳定。

代码：

#导库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#读取数据
data=pd.read_excel("data.xlsx",sheet_name="东京奥运会女子举重")
x4=data["weight"].values
y4=data["power"].values

#改进的模型，4次多项式拟合
coefficients = np.polyfit(x3, y3, 5) # 只需改动这里面参数，即可拟合多种多项式
poly = np.poly1d(coefficients) # 生成多项式函数
print(poly)
u=poly(71)
print(u)

#定义改进后的标准得分函数
def zfunction(x,y):
    return (270.5482219490648*y)/poly(x)
z1=zfunction(x4,y4)

#画图
x5=data["name"].values
y5=z1
plt.figure(figsize=(15,8),dpi=300)
plt.title("5次改进02021年东京奥运会女子举重统一标准下得分图",fontsize=16)
plt.xlabel("运动员姓名",fontsize=14)
plt.ylabel("标准得分",fontsize=14)
plt.plot(x5,y5,color="b",marker="o",label="标准得分")
plt.grid(True)
plt.legend(loc="upper left")
plt.savefig("6.png")
print("得分结果为：")
print(z1)

至此解决重要的两问。三问、四问都比较容易解决。