目录
一、数据理解
1.数据为天猫订单部分真实数据,存放在一个tmall_order_report.csv文件里,总计28010条数据,具体字段为:
订单编号
总金额:订单总金额,共866种
买家实际支付金额:最终支付金额,分为已付款和未付款
已付款:买家实际支付金额 = 总金额 - 退款金额
未付款:买家实际支付金额 = 0
收货地址:共31个省市
订单创建时间:2020年2月1日 至 2020年2月29日
订单付款时间:2020年2月1日 至 2020年3月1日
退款金额:付款后申请退款的金额,未申请退款则为0
二、指标分析
1.通过上述字段可知,订单数据以销售额为结果指标,围绕销售额指标可以拆分为:
销售额=uv*转化率*客单价
因为没有用户ID,所有可以把订单号做为uv
转化率:转化流程为 创建--付款--实付--全额 每一层的转化率是多少
客单价:每个订单的金额
2.分析维度:时间,地区、产品
三、分析过程
1、导入需要的库、编码、路径设置
import pandas as pd,os
import numpy as np
import matplotlib.pyplot as plt
import pyecharts.options as opts
from pyecharts.charts import Funnel as fu
from pyecharts.charts import Map as ma
import warnings as wn
import seaborn as sns
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
p=r'C:\Users\Administrator\Desktop\py'
os.chdir(p)
wn.filterwarnings('ignore') #过滤警告
pd.get_option('display.max_columns',None) #显示所有列
2、导入数据查看是否有异常情况
订单付款时间存在缺失,预计是未付款订单,不做处理
df=pd.read_csv('tmall_order_report.csv')
df.info()
时间列格式为object,需要修改为datetime
df['订单创建时间']=pd