大家好,小编为大家解答基于python的数据处理案例的问题。很多人还不知道python数据处理与分析案例,现在让我们一起来看看吧!
关于数据处理案例有两个,第一个案例是我整理到有道云上的,就直接剪切下来了,下面直接进入正题~
案例1:快餐数据
案例2:欧洲杯数据
先进行数据探索
data.info()
data.describe()
查看数据集是否有缺失值且哪个字段存在缺失值?可以用下面的代码,也可以用前面案例1缺失值那里提到的前两种方法
for i in range(data.shape[1]):
if data.iloc[:,i].notnull().sum() != data.shape[0]:
print('第%d列:字段%s 存在缺失值'%(i+1,data.columns[i]))
代码运行结果是
对Clearances off line进行缺失值处理
首先查看Clearances off line字段
统计其数字组成
data['Clearances off line'].value_counts()
从统计结果可以看到,在Clearances off line这个字段中有11个值为0,3个值为1,1个值为2,故考虑采用众数(mode)填充缺失值
mode=data['Clearances off line'].mode()
data['Clearances off line']=data['Clearances off line'].fillna(mode)
描述性统计
统计有多少球队参加了欧洲杯?
data.Team.count()
将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的数据框
discipline=data[['Team','Yellow Cards','Red Cards']]
按照先Red Cards再Yellow Cards进行降序排序
discipline.sort_values(by=['Red Cards','Yellow Cards'])
计算每个球队拿到黄牌的平均值
data['Yellow Cards'].mean()
找出进球数大于6个的球队的数据
data[data['Goals']>6]
对比英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(Shooting Accuracy)
data['Shooting Accuracy'].[data.Team.isin(['England','ltaly','Russia'])]