TianMao订单数据分析

最新推荐文章于 2023-12-09 16:26:03 发布
昵称有何用
最新推荐文章于 2023-12-09 16:26:03 发布
阅读量158
点赞数
文章标签： python
本文链接：https://blog.csdn.net/qq_66150978/article/details/122331420
版权
import pandas as pd
df = pd.read_csv('D:/data/tmall_order_report.csv')
df.head(50)

df.columns

df.describe()

df.info()

df.isnull().sum()#缺失值的查看，订单付款时间为空说明没有付款

df.duplicated().sum()#重复值查看

df.columns

df.columns = df.columns.str.strip()#去列名的空值
df.columns

df.shape

df[df.duplicated()].count()#列重复值查看

#对收货地址做字符串处理
df.收货地址.unique()#返回列的唯一值

df.收货地址=df.收货地址.str.replace('自治区|省|壮族|维吾尔|回族','',regex=True)#regex表示用正则表达式
df.收货地址

data1 = df.总金额.sum()
data1

data2 = df.退款金额.sum()
data2

data3 = df.买家实际支付金额.sum()
data3

data4=data3-data2#总收入
data4

df[df.订单付款时间.isnull()]#未付款订单

df['订单编号'][df.订单付款时间.isnull()].count()

result = {}#创建空字典
result['未付款订单数'] = df['订单编号'][df.订单付款时间.isnull()].count()#存入数据
result['已完成订单数']=  df['订单编号'][df.订单付款时间.notnull()].count()
result

result['总订单数'] = df['订单编号'].count()
result['退款订单数'] = df['订单编号'][df.退款金额>0].count()
result['总订单金额'] = df['总金额'].sum()
result['总退款金额'] = df['退款金额'].sum()
result['总实际收入金额'] = df['买家实际支付金额'].sum()
result

result1 = {}#创建空字典
result1['未付款订单数'] = df['订单编号'][df.订单付款时间.isnull()].count()#存入数据
result1['已完成订单数']=  df['订单编号'][df.订单付款时间.notnull()].count()
result1['总订单数'] = df['订单编号'].count()
result1['退款订单数'] = df['订单编号'][df.退款金额>0].count()
result1['总订单金额'] = df['总金额'].sum()
result1['总退款金额'] = df['退款金额'].sum()
result1['总实际收入金额'] = df['买家实际支付金额'][df.订单付款时间.notnull()].sum()
result1

import numpy as np
table = pd.DataFrame(result1,index = np.arange(1))#把7个变量放入二维表中
table

#统计地区订单量，以柱状图显示
import matplotlib.pyplot as plt

result2 = df[df.订单付款时间.notnull()].groupby('收货地址')['订单编号'].size()
#to_dict()直接把Series和DataFrame转成字典,tolist()转换成列表
result21 = result2.to_dict()
#esult21.keys()
result22 = sorted(result21.items(),key = lambda item:item[1]) #排序之后是列表

result23 = {}
for i in range(len(result22)):
    result23[result22[i][0]] = result22[i][1]
result23#排序之后字典

result24 = []
for j in result23.keys():
    result24.append(j)
#result22#把地址转换为列表形式
[list(x) for x in result22]
#plt.rcParams['font.family'] = ['SimHei']#设置中文正常显示
#plt.rcParams['axes.unicode_minus'] = False#设置符号正常显示

#fig = plt.figure(figsize=(12,10)) #设置画布大小
#plt.barh(range(1,len(result23)+1),result23.values(),tick_label = list)
#plt.show()



plt.rcParams['font.family'] = ['SimHei']#设置中文正常显示
plt.rcParams['axes.unicode_minus'] = False#设置符号正常显示

fig = plt.figure(figsize=(12,10)) #设置画布大小
plt.barh(range(1,len(result23)+1),result23.values(),tick_label = list)
plt.show()

from pyecharts import options as opts #全局配置项
from pyecharts.charts import Map #导入地图
mapDD = (
    Map()
    .add('订单量',[list(x) for x in result22],'china')
    .set_global_opts(title_opts=opts.TitleOpts(title='地区订单分布'),visualmap_opts=opts.VisualMapOpts(max_=2000))
)
mapDD.render('html\\mapDD.html')



#分析订单走势
df.info()

df['订单创建时间'] = pd.to_datetime(df['订单创建时间'])
df['订单付款时间'] = pd.to_datetime(df['订单付款时间'])

result3 = df.groupby(df['订单创建时间'].apply(lambda x:x.strftime("%Y-%m-%d")))['订单编号'].size()
result31 = result3.to_dict()
fig = plt.figure(figsize=(30,10)) #设置画布大小
plt.plot(result31.keys(),result31.values())
plt.show

分析：从图上来看，2月份上半月受新冠疫情的影响，订单量比较少，随着复工开幕，下半月订单量增长明显

df.info()


#9
result4=df.groupby(df['订单创建时间'].apply(lambda x:x.strftime("%H")))['订单编号'].size().to_dict()
#list(result4.keys())
[*result4.keys()]

from pyecharts import options as opts #全局配置项
from pyecharts.charts import Map,Bar #导入地图

barDD = (
    Bar()
    .add_xaxis(list(result4.keys()))
    .add_yaxis("订单量",list(result4.values()))
    .set_global_opts(title_opts=opts.TitleOpts(title="每小时订单走势"))
)
#barDD.render_notebook()
barDD.render('html\\barDD.html')

 结论：从每小时订单量走势来看，一天中有3个高峰期（10点、15点、21点），其中21点-22点之间是一天中订单量最多
的时候，这个结果和之前1亿条淘宝用户行为数据分析的是一致的，对于卖家的指导意义就是，为了提高订单量，高峰
期时应该尽量保证客服的回复速度，尤其是晚上21点-22点之间，所以很多做电商的基本都有夜班