SQL | 淘宝用户行为数据分析

本文基于淘宝用户行为数据集进行分析,包括数据预处理、用户行为、购买情况、转化率和用户特征。发现用户活跃时段主要集中在18-22点,周末浏览量和访客量上升,跳失率低,复购率高,购买转化率低,购物车转化率高于收藏夹转化率。通过RFM模型区分用户价值层次,提出针对性的营销策略建议。
摘要由CSDN通过智能技术生成

一、项目背景

利用淘宝用户行为数据集,学习电商平台数据分析的相关指标和分析模型,培养业务场景下的分析思路。

二、数据预处理

1.数据来源

数据源:User Behavior Data from Taobao for Recommendation

2.理解数据

数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为,数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成。其中,用户行为类型有如下四种:
在这里插入图片描述

3.数据清洗

3.1 导入数据
利用Navicat,选取100万行数据导入MySQL。

3.2 重命名数据表列名称
在“设计表”窗口中重命名列名
在这里插入图片描述
3.3 查找并删除重复值

select *
from userbehavior
group by user_id,item_id,category_id,behavior_type,timestamp
having count(*)>1

在这里插入图片描述
没有返回数据,可见数据集没有重复值。

3.4 缺失值处理

select count(user_id),count(item_id),count(category_id),count(behavior_type),count(timestamp)
from userbehavior

返回值均为999999,没有缺失值。

3.5 标准化处理
为了方便后续的分析,将日期信息分为时间(date_time)、日期(date)、小时(time)字段。
添加date_time字段,根据timestamp字段返回时间信息:

ALTER TABLE userbehavior add COLUMN date_time TIMESTAMP NULL
UPDATE userbehavior
set date_time = FROM_UNIXTIME(`timestamp`)

添加date字段,根据timestamp字段返回日期信息:

ALTER TABLE userbehavior ADD COLUMN date char(10) NULL
UPDATE userbehavior
SET date = FROM_UNIXTIME(`timestamp`,'%y-%m-%d')

添加time字段,根据timestamp字段返回小时信息:

ALTER TABLE userbehavior ADD COLUMN time char(10) null
update userbehavior
set time = SUBSTRING(date_time FROM 12 FOR 2)

得到结果如下:
在这里插入图片描述
3.6 异常值处理
通过对日期字段进行升序、降序排序,发现有2017年11月25日到2017年12月3日时间段之外的数据,需要删掉这些异常数据。

DELETE FROM userbehavior
where date > "17-12-03" or date < "17-11-25"

3.7 数据整体情况

SELECT count(DISTINCT user_id) as 用户数,
count(DISTINCT item_id) as 商品数量,
count(DISTINCT category_id) as 商品类目数量,
count(behavior_type) as 行为数量
FROM userbehavior

在这里插入图片描述

三、分析角度

1.用户行为分析

通过分析不同时间段的PV、UV以及其它指标,推断用户活跃时段,了解用户行为习惯。

2.购买情况分析

通过分析不同时间段的订单量及其对应的商品、商品类目,以及人均订单量、复购率等指标,了解用户的购买偏好和商品的销售规律。

3.用户行为转化分析

通过用户的收藏转化率、加购转化率、购买转化率,对用户从浏览商品到购买商品的一系列行为进行漏斗分析。

4.用户特征分析

基于RFM模型,将用户划分为不同的等级和层次,从而衡量用户价值。

四、分析过程

1.用户行为分析

1.1 2017年11月25日至2017年12月3日之间的PV(页面浏览量)为:895635

SELECT count(behavior_type) as 浏览量
FROM userbehavior
where behavior_type = 'pv'

1.2 2017年11月25日至2017年12月3日之间的UV(独立访客量)为:9739

SELECT count(DISTINCT user_id)as 访客量
from userbehavior

1.3 平均浏览量为:895635/9739 ≈ 92
即每个用户平均访问了92个页面

1.4 跳失率
只有点击行为的用户数为:567

select count(
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值