SQL项目实战分析-淘宝用户行为分析
- 分析背景
随着电商发展的壮大,竞争对手的增多,市场竞争更家激烈,电商企业也从增量的发展转向存量的运营。大数据技术的发展和运用也日益成熟,千人千面的推荐系统也建立在对用户的各类数据的分析和挖掘下。所以对用户行为的分析可以进一步挖掘和完善用户画像,理解用户需求,为产品营销和用户运营提高更好的决策支持。
- 数据来源和介绍
数据来源于阿里巴巴天池:
数据集介绍:
数据集(UserBehavior.csv)包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔,数据集的每一行表示一条用户行为。
字段含义:
列名称 | 说明 |
用户ID(user-id) | 字符串类型,用户ID |
商品ID(item-id) | 字符串类型,商品ID |
商品类目ID(category-id) | 字符串类型,商品所属类目ID |
行为类型(behavior-id) | 字符串,枚举类型,包括('pv', 'buy', 'cart', |
时间戳(timestamp) | 整型,行为发生的时间戳 |
行为类型 | 说明 |
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
- 明确问题
1 从用户角度,用户的价值如何分类?
2 从用户行为来分析,用户在不同行为类型的转化率,流失率如何?
3 从时间角度,什么时间段用户的购买率高,不同时间的变化如何?
4 从产品角度,受用户欢迎的产品种类有哪些?与推荐和点击种类是否重合,有哪些关联?
- 分析思路
可以从动态流程到各个环节逐一分析,商品购买的流程大概是:
用户——用户行为(不同时间段)———产品
- 数据清洗(原始数据需要备份)
1 选择子集
数据集太大,选取10万条导入Mysql进行分析,每一列都有参考价值所以保留,在navicat
客户端对列表进行重命名以便于理解。
User ID --用户id,
Item ID--商品id,
Caterory ID---商品类目id,
Behavior type---行为类型
Timestamp----发生时间
2 确认数据完整性
明确数据是否导入10万条
3 查询缺失值的存在
查询结果显示数据集并无空值。
4 查询数据重复值
查询结果显示数据集并无重复值。
5 数据一致化处理
把发生时间进行更便捷的时间处理
6 数据异常值处理
根据数据集介绍,改数据集包含了2017年11月25日至2017年12月3日之间的数据,
查询是否有超出计数据范围的数据,并删除。
删除后运行SQL语句检查日期范围:
结果符合要求,数据清洗完成。
- 业务问题分析过程
AIPL:把品牌人群细分,将人群资产定量化,是品牌进行全域营销最重要的一环,其中AIPL代表的意思为
Awareness 看到(曝光,点击,浏览)
Interest 倾向(关注,互动,搜索,收藏,加购)
Purchase 购买(支付下单)
Loyalty忠诚(正向评论,重复购买)
这里运用AIPL营销模型来分析用户行为的转化率变化情况,需要对表结构进行“行列互换”,
创建一个视图
计算出A、I、P的值
计算L值( 复购)
AIPL转化流程如图
从图中我们可以看出
A-I 拉新宣传,引起客户兴趣部分的转化率不到10%
I-P 客户首次下单购买的转化率是26%,还有很大的提升空间
P-L 客户复购的转化率高达64%说明顾客忠诚度高,可以制定更好的运营策略维护老客户
分析A-I的
从图表中可以看出来
统计会员总人数