提出问题
因为不懂球,所以想通过数据分析以下几个问题?
1.哪个球队的薪资比较多? 2.球员能力,身体素质和薪资的关系? 3.这些球队的球员的能力如何? 4.是否20%的人掌握了80%的财富
数据清理
获取数据
# coding=utf-8
import pandas as pd
import numpy as np
from pandas.core.frame import DataFrame
import seaborn as sns
import matplotlib.pyplot as plt
master = pd.read_csv('Master.csv')
salaries = pd.read_csv('Salaries.csv')
数据清理 (合并2016年数据,并清理无用参数)
salaries_2016 = salaries[salaries['yearID'] == 2016]
merge_all = pd.merge(master,salaries_2016,on = ['playerID'])# 844
finalyData = merge_all.drop(["birthDay","birthCountry","birthState","birthCity","deathYear","deathMonth","deathDay","deathCountry","deathState","deathCity","nameFirst","nameLast","nameGiven","debut","finalGame","bbrefID","yearID","lgID","retroID"],axis = 1)
print len(finalyData)
print len(master)
print len(salaries)
数据分析
球员出生年分析¶
%matplotlib inline
sns.distplot(master.birthYear.fillna(2018))
plt.ylabel('people count')
plt.title('player birthYear')
可以看出1925年左右出生的球员 明显减少 经查证美国这个时间处于大萧条时期 (1929年至1933年之间发源于美国的经济危机) 可能经济低迷是参加人数减少的一大主要原因
球员出生月分析
sns.distplot(master.birthMonth.fillna(13))
plt.ylabel('people count')
plt.title('player birthMonth')
为什么后8-1月出生人数比较多? 因为每年选秀在6月举行,春训于2月中开始,高中生只有毕业后才有资格(6月份毕业居多) 大概是因为报名时间的影响,所有在报名日这天,1-6月一部分人岁数