1、数据的格式
2、分析内容
1、绘制8月份每天销售额分析-折线图
2、销售额与星期的关系分析-柱状图
3、星期一~星期天销售额的占比关系-饼图
4、时间、销售额、订单量之间的关系-气泡图
2.1 八月份每天销售额的折线图
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 设置显示的字体
plt.rcParams['font.sans-serif'] = 'SimHei' # 显示中文
plt.rcParams['axes.unicode_minus'] = False # 显示负号
# 从本地读取餐馆订单数据
data = pd.read_excel(r'.\meal_order_detail_1.xls')
# 查看订单数据相关信息
print(data.shape)
print(data.columns)
# 计算收入, 总价=数量*单价
data['price'] = data['counts']*data['amounts']
# 添加时间戳,将相应的时间转化为第1天到-N天
data['day'] = pd.DatetimeIndex(data['place_order_time']).day
# 对'day'和'price'进行聚合操作
data_gb = data[['day', 'price']].groupby(by='day')
# 对每天所有订单金额求和
number = data_gb.agg(np.sum)
# 8月份每天(共31天)销售额的折线图
plt.figure()
plt.scatter(range(1, 32), number, marker='D')
plt.plot(range(1, 32), number)
plt.xlabel('日期')
plt.ylabel('销售额')
plt.title('2016年8月餐饮销售额趋势图')
plt.xticks(range(1, 32)[::7], range(1, 32)[::7])
plt.text(number['price'].argmin(), number['price'].min(), '最小值为'+str(number['price'].min()))
plt.show()
结果展示:
2.2 销售额与星期的关系,对星期的销售额分析
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 设置显示的字体
plt.rcParams['font.sans-serif'] = 'SimHei' # 显示中文
plt.rcParams['axes.unicode_minus'] = False # 显示负号
# 从本地读取餐馆订单数据
data = pd.read_excel(r'.\meal_order_detail_1.xls')
# 查看订单数据相关信息
print(data.shape)
print(data.columns)
# 添加时间戳并将相应日期转化为星期一~天
ind = pd.DatetimeIndex(data['place_order_time'])
data['weekday_name'] = ind.day_name()
# 对销售额与星期进行分组聚合,并对星期一到星期天的销售额进行求和
data_gb=data[['weekday_name', 'price']].groupby(by='weekday_name')
number = data_gb.agg(np.sum)
week = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
# 更改数据的顺序
number2 = number.loc[week, 'price']
# 注意,这里的星期顺序是乱的
# plt.bar(number2.index, number2)
# width宽度,alpha透明度
plt.bar(range(1, len(number2)+1), number2, width=0.5, alpha=0.5)
plt.xticks(range(1, len(number2)+1), number2.index, rotation=45)
plt.title('星期与销售额的关系')
for i,j in zip(range(1, len(number2)+1), number2):
plt.text(i ,j, '%i'%j, ha='center', va='bottom')
plt.show()
2.3 星期一~天销售额占比关系
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 设置显示的字体
plt.rcParams['font.sans-serif'] = 'SimHei' # 显示中文
plt.rcParams['axes.unicode_minus'] = False # 显示负号
# 从本地读取餐馆订单数据
data = pd.read_excel(r'.\meal_order_detail_1.xls')
# 查看订单数据相关信息
print(data.shape)
print(data.columns)
# 添加时间戳并将相应日期转化为星期一~星期天
ind = pd.DatetimeIndex(data['place_order_time'])
data['weekday_name'] = ind.day_name()
# 对销售额与星期进行分组聚合,并对星期一到星期天的销售额进行求和
data_gb=data[['weekday_name', 'price']].groupby(by='weekday_name')
number = data_gb.agg(np.sum)
week = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
# 调整数据的顺序
number2 = number.loc[week, 'price']
# 销售额的占比情况
plt.figure(figsize=(5, 5))
plt.style.use('ggplot')
plt.pie(number2, labels=number2.index, autopct='%.2f%%', explode=[0.1]+[0]*6, wedgeprops=dict(width=0.6, edgecolor='w'))
plt.title('星期销售额占比情况')
plt.show()
2.4 时间、销售额、订单量之间的关系
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 设置显示的字体
plt.rcParams['font.sans-serif'] = 'SimHei' # 显示中文
plt.rcParams['axes.unicode_minus'] = False # 显示负号
# 从本地读取餐馆订单数据
data = pd.read_excel(r'.\meal_order_detail_1.xls')
# 查看订单数据相关信息
print(data.shape)
print(data.columns)
# 计算收入, 总价=数量*单价
data['price'] = data['counts']*data['amounts']
# 添加时间戳,将相应的时间转化为第1天到-N天
data['day'] = pd.DatetimeIndex(data['place_order_time']).day
# 对订单id, 总价,日期(day)进行聚合
data_gb = data[['order_id', 'price', 'day']].groupby(by='day')
# np.unique(data)===去除重复的数据并按从小到大的顺序排列
def myfun(data):
return len(np.unique(data))
number = data_gb.agg({'price': np.sum, 'order_id':myfun})
plt.scatter(range(1, 32), number['price'], s=number['order_id'])
plt.title('订单量、销售额与时间的关系')
plt.xlabel('时间')
plt.ylabel('销售额')
plt.show()
三、参考链接
1、groupby-分组聚合相关知识
2、plt.xticks
3、pd.DatetimeIndex时间戳
4、Matplotlib常见图形绘制