使用的文件
一、解析文件
1、导入插件,并可以显示中文
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#用来显示中文标签
plt.rcParams['font.sans-serif'] = ['SimHei']
#用来正常显示负号 plt.rcParams['axes.unicode_minus'] = False
2、读取文件
#1 获得数据
data = pd.read_excel("data//tips.xls") print(data.head())
二、分析数据
#2 查看数据的描述信息
print(data.describe())
#3 修改列名为汉字,并显示前5行
data.rename(columns={'total_bill':'消费总额','tip':'小费','sex':'性别','smoker':'是否吸烟','day':'星期','time':'聚餐时间段','size':'人数'},inplace=True)
print(data.head())
#5 查询吸烟男生中人均消费大于15的数据(两种方法)
#方法1
f = data[(data['是否吸烟']=='Yes') & (data['性别']=='Male') & (data['人均消费']>15)]
print(f)
#方法2
f1 = data.query('是否吸烟=="Yes" & 性别=="Male" & 人均消费>15')
print(f1)
输出结果:
#6 分析小费金额和消费总额的关系
s = data.plot(kind = 'scatter',x = '消费总额',y = '小费') print(s) plt.show()
输出结果:
#7 分析男性顾客和女性顾客谁慷慨
s = data.groupby('性别')['小费'].mean()
从上图中可以看出,男生顾客更慷慨一些
#8 分析星期与小费的关系
print(data['星期'].unique())
#显示星期的取值 r = data.groupby('星期')['小费'].mean()
print(r)
fig = r.plot(kind='bar',x='星期',y='小费',fontsize=12,rot=30)
plt.show();
从下图中可以看出,周六,日的小费比周四,五的高一些
#9 性别+吸烟组合因素对慷慨度的影响
r = data.groupby(['性别','是否吸烟'])['小费'].mean()
print(r)
fig = r.plot(kind='bar',x=['性别','是否吸烟'],y= '小费',fontsize=12,rot=30)
plt.show()
输出结果:
#10 分析聚餐时间段与小费数额的关系
s = data.groupby('聚餐时间段')['小费'].mean()
print(s)
fig = s.plot(kind='bar',x='聚餐时间段',y='小费',fontsize=15,rot=30) fig.axes.title.set_size(16)
plt.show()