-
分析目标:描述该平台在用户以及用户在产品消费上的现状定位,找到该平台目前的核心优势或是亟待解决的核心问题,提供下一步发展最核心有效的方向和相应建议
-
分析对象:国外某中型to c 化妆品在线商店
-
数据来源:https://www.kaggle.com/mkechinov/ecommerce-events-history-in-cosmetics-shop
-
数据描述:数据包括该中型化妆品在线商店的5个月(2019年10月至2020年2月)共2000万条用户行为数据,包括浏览、加购、移出购物车、购买下单行为分类,以及行为发生时间、对象产品、产品分类、品牌等
-
分析方法:AARRR海盗模型,RFM用户分层模型,对比与时间序列分析、漏斗与流程分析
-
数据处理使用工具:
-
考虑总体数据数据量极大,总体数据的清洗及部分分析在python3平台上完成
-
提取典型性数据(12月数据)至MySQL平台提取所需分析数据
-
PowerBI及Tableau产出可视化图表
-
-
分析结构:
-
分析结论概览:
-
平台新用户占比巨大却未有效转化,新用户留存策略亟待提高
-
平台用户结构不稳定,受短期流量用户影响大,需采取针对性策略留存新用户、稳定和提升价值
-
用户加购及购物车存留商品基本代表用户消费倾向
-
平台推荐浏览流量与下单品牌有部分错位,需优化产品推荐机制基于加购商品关联推荐,吸引用户浏览和加购
-
加购商品 存留时长在1日左右下单概率最高,时长增加下单频次减低,应尽量缩短1日 购物车商品留存时间间隔,提高加购-购买转化率
-
一、数据情况和预处理
1、字段含义
event_time |
事件发生的时间(以 标准世界时 UTC 为单位) |
event_type |
|
product_id |
产品ID标识 |
category_id |
商品类别 ID |
category_code |
产品的类别分类(代号)。通常用于有意义的类别,而对于不同类型的配件则跳过。 |
brand |
品牌名称的缩写字符串。可以错过。 |
price |
浮动价格,产品的当前价格 |
user_id |
永久用户 ID。 |
** user_session** |
用户的临时会话 ID。每个用户的会话相同。每次用户从长时间的暂停中返回在线商店时都会更改。 |
2、处理数据
1、读取转换:python读取5个月csv表的数据并进行拼接,最终合成为 20692840行, 9个字段的数据,数据量非常庞大。
2、列名重命名:将字段名按字段解释改为对应中文名
3、整体去重:删除各列都重复的数据,去重后数据量是19583742条
4、缺失值:统计数据缺失情况,产品类别分类、品牌、临时用户会话id存在缺失值。
-
-
产品类别 ID基本代表了产品类别,产品类别分类的缺失并不影响分类定义
-
-
-
品牌缺失不影响用户部分分析,在后续分出产品表时进行填充和去重处理
-
临时会话id对数据并无影响,可以忽略。
-
5、异常值:通过Matplotlib箱线图查看数据总体是否有异常值,结果基本无异常。
单独查看价格情况,购买行为中价格记录存在负值(统计共124条),应为退款情况,将此部分记录筛选去除
6、时间类型处理:时间字段类型读取后为字符串类型,去除结尾'UTC',将之转换为时间对象
import time
transform_date = data['时间'].apply(lambda x:x.split('UTC')[0])
data[