机器学习项目 - 球员信息分析 - matplotlib 大量使用

提出问题

因为不懂球,所以想通过数据分析以下几个问题?

1.哪个球队的薪资比较多? 2.球员能力,身体素质和薪资的关系? 3.这些球队的球员的能力如何? 4.是否20%的人掌握了80%的财富

数据清理

获取数据

# coding=utf-8
import pandas as pd
import numpy as np
from pandas.core.frame import DataFrame
import seaborn as sns
import matplotlib.pyplot as plt

master = pd.read_csv('Master.csv')
salaries = pd.read_csv('Salaries.csv')

数据清理 (合并2016年数据,并清理无用参数)

salaries_2016 = salaries[salaries['yearID'] == 2016]
merge_all = pd.merge(master,salaries_2016,on = ['playerID'])# 844
finalyData = merge_all.drop(["birthDay","birthCountry","birthState","birthCity","deathYear","deathMonth","deathDay","deathCountry","deathState","deathCity","nameFirst","nameLast","nameGiven","debut","finalGame","bbrefID","yearID","lgID","retroID"],axis = 1)
print len(finalyData)
print len(master)
print len(salaries)

数据分析

球员出生年分析

%matplotlib inline
sns.distplot(master.birthYear.fillna(2018))
plt.ylabel('people count')
plt.title('player birthYear')

可以看出1925年左右出生的球员 明显减少 经查证美国这个时间处于大萧条时期 (1929年至1933年之间发源于美国的经济危机) 可能经济低迷是参加人数减少的一大主要原因

球员出生月分析

sns.distplot(master.birthMonth.fillna(13))
plt.ylabel('people count')
plt.title('player birthMonth')

为什么后8-1月出生人数比较多? 因为每年选秀在6月举行,春训于2月中开始,高中生只有毕业后才有资格(6月份毕业居多) 大概是因为报名时间的影响,所有在报名日这天,1-6月一部分人岁数未达标或许会受到影响 参考地址

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值