一、分析背景
国家统计局公布的2014-2019H1中国居民消费相关数据显示,中国社会消费零售总额增速逐步放缓,经过多年来高速增长的电商行业也从之前的野蛮式扩张逐步规范,形成稳定局面。
数字用户红利见顶,电商行业从流量思维向用户思维转身。加上新媒体的不断崛起,用户时长市场呈现离散化,整个行业面临诸多困难与挑战,因此对用户行为展开深入分析,从数据挖掘的角度出发,及时了解到目前存在的业务问题,具有重要现实意义。本文利用SQL对淘宝用户行为数据进行分析,通过用户行为分析业务问题。
二、分析目的
利用AARRR模型、RFM模型、对比分析等分析方法,从不同维度对用户行为进行分析,找到用户行为规律及需要改进的环节,并提出有针对性的改进建议。
三、理解数据
3.1 采集数据
本数据集来源于:阿里天池-User Behavior Data from Taobao for Recommendation
3.2 导入数据
将数据导入数据库,考虑MySQL内存及后续操作,此次考虑仅导入前500万行数据进行分析。
3.3 理解数据
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约五百万随机用户的所有行为(行为包括点击、购买、加购、收藏)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
列名称 | 说明 |
---|---|
用户ID | 整数类型,序列化后的用户ID |
商品ID | 整数类型,序列化后的商品ID |
商品类目ID | 整数类型,序列化后的商品所属类目ID |
行为类型 | 字符串,枚举类型,包括(“pv”,“buy”,“cart”,“fav”) |
时间戳 | 行为发生的时间戳 |
注意到,用户行为类型共有四种,它们分别是:
行为类型 | 说明 |
---|---|
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
四、分析思路
4.1 构建业务问题
- 分析用户使用APP过程中的常见电商分析指标,确定各个环节的流失率,找到需要改进的环节;
- 研究用户在不同时间尺度下的行为规律,找到用户在不同时间周期下的活跃规律;
- 找到用户对不同种类商品的偏好,找到针对不同商品的营销策略;
- 找出最具价值的核心付费用户群。
4.2 思维导图
五、数据清洗
5.1 列名重命名
原数据集没有列名,导入数据后,给数据对应列添加新列名。
5.2 选择字段
本次分析所有列字段都需要,所以全部选择。
5.3 重复值处理
SELECT DISTINCT
user_id,
item_id,
category_id,
behavior_type,
timestamp
FROM
userbehavior;
删除重复值后,剩下4999600行数据。