背景描述
本数据集的工资数据截至 2023-24 赛季夏季转会窗口。数据提取自游戏《Football Manager 2024》,包含 40,000+ 名球员的数据。
FM24 是一款深受欢迎的足球模拟经营游戏。玩家将扮演一位足球经理,负责经营一支足球俱乐部,通过合理的人员调整、战术布置和训练安排,带领球队取得胜利。
数据说明
data_raw.csv
字段 | 说明 |
---|---|
Name | 球员名字 |
Club | 俱乐部 |
Division | 联赛 |
Based | 联赛举办国 |
Nat | 国籍 |
EU National | 是否为欧洲国家 |
Caps | 出场次数 |
AT Apps | 所有出场时间 |
Position | 位置 |
Age | 年龄 |
CR | 影响力(0-10000) |
Begins | 合同开始日期 |
Expires | 合同截止日期 |
Last Club | 上一家俱乐部 |
Last Trans. Fee | 转会费 |
Salary | 工资 |
data_cleaned.csv
字段 | 说明 |
---|---|
Is_top_5_League | 是否在在五大联赛效力 |
Based_rich_nation | 球员生活的国家是否富裕 |
Is_top_ranked_nation | 球员所代表的国家是否在国际足联世界排名中名列前茅 |
EU_National | 是否为欧洲国家 |
Caps | 出场次数 |
Apps | 所有出场时间 |
Age | 年龄 |
Reputation | 影响力(0-10000) |
Is_top_prev_club | 根据欧足联 10 年系数,前俱乐部球员是否曾在顶级俱乐部效力过 |
Last_Transfer_Fee | 转会费 |
Salary | 工资 |
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
from scipy import stats
from scipy.stats import kstest,ttest_ind,spearmanr,f_oneway
from sklearn.preprocessing import StandardScaler
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.stats.stattools import durbin_watson
from sklearn.model_selection import train_test_split
import statsmodels.api as sm
from statsmodels.stats.diagnostic import het_breuschpagan
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression
plt.rcParams['axes.unicode_minus