数据来源:
数据集:
https://www.kaggle.com/datasets/bryanb/fifa-player-stats-database
所有数据爬取自:https://sofifa.com/
数据字段:
因变量:Value身价
自变量:Age年龄、Overall总评、International Reputation国际声誉、Weak Foot逆足、Skill Moves花式、Contract合同年限
建模数据:
预测数据:
数据分析流程:
1.对数据指标进行描述性分析,分析数据指标的缺失值、异常值、数据集中趋势、数据离散趋势进行分析,并进行数据预处理
通过描述性分析可知:无缺失值、无异常值。
2.结合相关系数矩阵分析变量之间的相关关系
通过相关系数矩阵可知:球员身价和年龄呈现强负相关,和球员总评和合同年限呈正相关,和拟足、花式呈弱正相关。
3.求线性回归方程,并解释回归系数的实际意义
Y=-669-6X1+10X2+4.7X3
当Age每增加一个单位的时候,球员身价平均减少6个单位,当Overall每增加一个单位的时候,球员身价平均增加10个单位,当花式每增加一个单位的时候,球员身价平均增加4.7个单位。
4.计算判定系数,并解释其意义
判定系数R²其意义是自变量对因变量的解释力度,是衡量回归模型的拟合优良程度的指标,R²=0.8,说明模型拟合效果很好。
5.检验回归方程线性关系的显著性
F检验:P值=8*e-45<0.05,F检验通过,整个回归方程显著,自变量整体对因变量有显著影响,对因变量有可解释性。
t检验:所有p值<0.05,t检验通过,说明自变量线性关系显著,每个x对于y都有显著性的影响,每个系数均可用。
6.预测巴黎三叉戟的身价
将自变量带入方程,做预测分析可得,梅西身价预测105,内马尔身价预测123,姆巴佩身价预测157。
而实际身价值为:
梅西高估了,姆巴佩低估了,内马尔还行。
因变量95%的置信区间为和预测区间为下图范围。
说明单纯的多元线性回归模型的预测能力还是有限的,应该建立更牛逼的回归模型来进行回归预测。