4Pandas统计分析小实训

使用的文件

一、解析文件

1、导入插件,并可以显示中文

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
#用来显示中文标签 
plt.rcParams['font.sans-serif'] = ['SimHei']
#用来正常显示负号 plt.rcParams['axes.unicode_minus'] = False

2、读取文件

#1 获得数据

data = pd.read_excel("data//tips.xls") print(data.head()) 

二、分析数据

#2 查看数据的描述信息

print(data.describe())

#3 修改列名为汉字,并显示前5行

data.rename(columns={'total_bill':'消费总额','tip':'小费','sex':'性别','smoker':'是否吸烟','day':'星期','time':'聚餐时间段','size':'人数'},inplace=True) 
print(data.head())

#5 查询吸烟男生中人均消费大于15的数据(两种方法)

#方法1 
f = data[(data['是否吸烟']=='Yes') & (data['性别']=='Male') & (data['人均消费']>15)] 
print(f) 
#方法2 
f1 = data.query('是否吸烟=="Yes" & 性别=="Male" & 人均消费>15') 
print(f1)

输出结果:

#6 分析小费金额和消费总额的关系

 s = data.plot(kind = 'scatter',x = '消费总额',y = '小费') print(s) plt.show()

输出结果:

#7 分析男性顾客和女性顾客谁慷慨

 s = data.groupby('性别')['小费'].mean()

从上图中可以看出,男生顾客更慷慨一些

#8 分析星期与小费的关系

print(data['星期'].unique())

#显示星期的取值 r = data.groupby('星期')['小费'].mean() 

print(r) 

fig = r.plot(kind='bar',x='星期',y='小费',fontsize=12,rot=30) 

plt.show();

从下图中可以看出,周六,日的小费比周四,五的高一些

#9 性别+吸烟组合因素对慷慨度的影响

r = data.groupby(['性别','是否吸烟'])['小费'].mean() 
print(r) 
fig = r.plot(kind='bar',x=['性别','是否吸烟'],y= '小费',fontsize=12,rot=30) 
plt.show()

输出结果:

#10 分析聚餐时间段与小费数额的关系

s = data.groupby('聚餐时间段')['小费'].mean() 
print(s) 
fig = s.plot(kind='bar',x='聚餐时间段',y='小费',fontsize=15,rot=30) fig.axes.title.set_size(16) 
plt.show()

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
python-pandas的一些小练习——东北大学大数据班数据挖掘实训Python基础二(2) 实训练习:练习使用pandas 包中的dataframe和方法。 1将数据读取为dataframe类型,命名为df 2查看数据的形状[了解数据有多少行、多少列] 3查看数据的最开始的7条数据和尾部的3条数据 4查看数据的各字段的类型 5查看数据是否有缺失值 6如果有缺失值,进行补0操作 7从df中按字段取出‘ date’’dist’和‘ flight’形成新的df1 8从df中按位置选取行为3和4,列为0,1的数据形成新的df2 9在df中添加一列‘ low_dest’,内容是‘ dest’这列的字符串的小写形式 10从df中选取‘ dist’大于1000并且小于1200的数据作为一个新的df3 11从df中选取‘ time’大于100的数据做为新的df4 12将df3和df4合并为一个dataframe,命名为df5 13取出df3中的‘ time’,‘dist’ 这两列做为df6, 求出df6中每列中最大值与最小值的差值(运用lambda函数的方式进行求解 ) 14将df根据“ dest”分组,统计各目的地,都有多少条数据,命名为“ dest_count”,然后将“ dest”和“ dest_count”组成新的dataframe命名为df7 15根据dep_delay不为0,统计df中有多少次航班起飞延误 16利用plane字段,统计df中不同航班的飞行次数,以plane和plane_cout格式保存为df8 17利用carrier字段,计算df中carrier字段不同属性数据的数据量的比值(如:XE的数据量与MQ的数据量的比值) 18分别将df7和 df8保存到本地文件,文件名分别为df7.csv和df8.csv

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值