项目说明
数据说明
本数据集共收集了发生在一个月内的28010条数据,包含以下字段:
[‘订单编号’, ‘总金额’, ‘买家实际支付金额’, ‘收货地址’, ‘订单创建时间’, '订单付款时间 ', ‘退款金额’]
1.订单实际支付金额 = 订单总金额 - 退款金额
2.若付款时间为NAN,则此订单未支付。未支付订单则退款金额为0。
分析目的
1、订单每个环节的转化情况
2、订单成交的时间特点
3、各区域订单情况
思维导图
数据预处理
import numpy as np
import pandas as pd
import pyecharts.options as opts
from pyecharts.charts import Funnel,Line,Map
#导入数据
df=pd.read_csv('tmall_order_report.csv', encoding = 'utf8')
df.head()
#查看数据的基本情况
df.info()
#数据清洗
# 观察是否存在重复数据
df.duplicated().sum()
# 不存在
#列名中可能存在空格,需要进行去空格处理
df.rename(columns = lambda x : x.replace(' ', ''), inplace = True)
#对时间列进行转换
# 转换时间格式
df['订单创建时间'] = pd.to_datetime(df['订单创建时间'])
df['订单付款时间'] = pd.to_datetime(df['订单付款时间'])
# 新增下单日期列、小时列
df['o_h'] = df['订单创建时间'].dt.hour
df['o_d'] = df['订单创建时间'].dt.day
转化情况
订单转化率-漏斗图
dict_df=dict()
key='总订单'
dict_df[key]=len(df)
key='付款订单'
df_payed=df[df