基于SQL的淘宝用户行为分析报告

本文通过对淘宝用户行为数据的SQL分析,揭示了用户流量、行为习惯、价值和商品偏好。用户流量中,人均浏览次数约91次,夜间活跃度高。用户在10点至18点及20-22点最为活跃。用户购买转化率低,收藏和加购是提升关键。RFM模型显示,用户购买频次集中在1-10次,商品购买和浏览并不完全同步,长尾商品主导销量。建议优化搜索匹配、商品详情页和营销策略,提高转化率和用户满意度。
摘要由CSDN通过智能技术生成

一、分析背景

国家统计局公布的2014-2019H1中国居民消费相关数据显示,中国社会消费零售总额增速逐步放缓,经过多年来高速增长的电商行业也从之前的野蛮式扩张逐步规范,形成稳定局面。

数据来源:国家统计局
数字用户红利见顶,电商行业从流量思维向用户思维转身。加上新媒体的不断崛起,用户时长市场呈现离散化,整个行业面临诸多困难与挑战,因此对用户行为展开深入分析,从数据挖掘的角度出发,及时了解到目前存在的业务问题,具有重要现实意义。本文利用SQL对淘宝用户行为数据进行分析,通过用户行为分析业务问题。

二、分析目的

利用AARRR模型、RFM模型、对比分析等分析方法,从不同维度对用户行为进行分析,找到用户行为规律及需要改进的环节,并提出有针对性的改进建议。

三、理解数据

3.1 采集数据

本数据集来源于:阿里天池-User Behavior Data from Taobao for Recommendation

3.2 导入数据

将数据导入数据库,考虑MySQL内存及后续操作,此次考虑仅导入前500万行数据进行分析。

3.3 理解数据

本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约五百万随机用户的所有行为(行为包括点击、购买、加购、收藏)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:

列名称 说明
用户ID 整数类型,序列化后的用户ID
商品ID 整数类型,序列化后的商品ID
商品类目ID 整数类型,序列化后的商品所属类目ID
行为类型 字符串,枚举类型,包括(“pv”,“buy”,“cart”,“fav”)
时间戳 行为发生的时间戳

注意到,用户行为类型共有四种,它们分别是:

行为类型 说明
pv 商品详情页pv,等价于点击
buy 商品购买
cart 将商品加入购物车
fav 收藏商品

四、分析思路

4.1 构建业务问题

  • 分析用户使用APP过程中的常见电商分析指标,确定各个环节的流失率,找到需要改进的环节;
  • 研究用户在不同时间尺度下的行为规律,找到用户在不同时间周期下的活跃规律;
  • 找到用户对不同种类商品的偏好,找到针对不同商品的营销策略;
  • 找出最具价值的核心付费用户群。

4.2 思维导图

在这里插入图片描述

五、数据清洗

5.1 列名重命名

原数据集没有列名,导入数据后,给数据对应列添加新列名。

在这里插入图片描述

5.2 选择字段

本次分析所有列字段都需要,所以全部选择。

5.3 重复值处理

SELECT DISTINCT
 user_id,
 item_id,
 category_id,
 behavior_type,
timestamp
FROM
 userbehavior;

删除重复值后,剩下4999600行数据。

5.4 缺失

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值