实战篇:淘宝用户转化路径分析和用户价值分类-上

转自:数据分析不是个事儿

本文是上篇用户路径分析的实操案例部分。文章很长,所以分为上下两篇。

01

分析背景

电商行业经过十几年的发展,已经步入成熟发展阶段。作为电商头部企业,淘宝、京东、拼多多3家企业已经呈现分庭抗礼的状态,现阶段的用户获客成本很高。实现用户增长,购买转化率提升已经不能再单纯依赖于电商行业红利,从粗狂化运营到精细化运营是必然趋势。从各个维度对用户数据进行细化分析,降低颗粒度,在业务中指导方向具有很大的意义。

本文将从淘宝用户行为数据着手分析,为精细化运营提出业务指导性意见。

02

提出问题

1. pv、uv随着时间的分布研究。

2. 淘宝各个环节的转化率研究。

3. 用户活跃天数与购买行为的相关性研究

4. 使用RFM分析方法对用户按价值分类

分析思路

e80b0f3a863234718dcca601525a17be.jpeg

分析工具:SQL查询、tableau可视化、mindmaster流程图

03

理解数据

本数据集 (UserBehavior.csv) 包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。

数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成。

5b489b8a55594379929dd7e507cf5f50.jpegf963d24a0a4d1119cec3abd51f48c578.jpeg

向右滑动查看更多

数据来源:阿里巴巴天池

04

清洗数据

4.1 导入数据

由于数据量较大,本次导入数据前30万条做分析研究。

源数据没有列名,在此先将第一行作为列名,再将目标字段修改为对应的列名。

此处全部先以varchar类型导入数据。

将用户id、商品id、时间戳3列设为联合主键。

d9e5676a7ce1a9893a2e1015f1570189.jpeg

导入后的数据如下:

f1e2ec901be9b29c3eb1b70d5e447804.jpeg

4.2 查找缺失值

对数据进行一个整体的统计,每列的数据均为300000,无缺失值。

86b33eb4563a1fa98105764256689840.jpeg

4.3 删除重复值

用户可以对某个商品进行多次浏览、收藏、加购和购买,但对某个商品在特定时间点只能够有一种行为类型。在此针对用户id、商品id、时间戳作为一个整体来查重。

发现并无重复值。

bf8869d7dec5a65ef439924ed1460aa4.jpeg

4.4 一致化处理

时间戳这一列方便后续分析,从这一列中提取出常规形式的日期、时间。

/*添加日期列*/
alter table userbehavior add 日期 varchar(255);
update userbehavior set 日期=FROM_UNIXTIME(时间戳,'%Y-%m-%d');
/*添加时间列*/
ALTER table userbehavior add 时间 varchar(255);
update userbehavior set 时间=FROM_UNIXTIME(时间戳,'%H:%i:%s');

格式如下:

f7e25a98e6f0176a4eb5b495e6b54fa2.jpeg

4.5 异常值处理

查找行为类型的值无异常。

baa8568d71cc55001f22c970907a039c.jpeg

查找日期值,发现有研究目标日期2017/11/25-2017/12/3之外的数据。

a6c85097331e8271b6144412b6777ef9.jpeg

在此做删除处理。

0ce3e82500f5c9359fa025eaa0de2f02.png

重新验证下删除后的数据,符合标准。

3676e3c5279b984bbce90c519f12ecc7.jpeg

04

数据分析

先对数据进行一个整体了解,共有行为记录299862条,用户数量2953,商品数量162887,商品类目数量4512,行为类型数量为4。

商品类目、商品种类都非常齐全。

f378446d94c7219b56bea80871efe689.jpeg

5.1 PV、UV随时间分布情况研究

5.1.1 以天为单位,PV、UV随日期分布情况

/*每日PV查询*/
SELECT  日期,count(行为类型) as PV 
FROM userbehavior
WHERE 行为类型='pv'
GROUP BY 日期

ORDER by 日期;
/*每日UV查询*/
SELECT  日期,count(distinct 用户ID) as UV
FROM userbehavior
WHERE 行为类型='pv'
GROUP BY 日期
ORDER by 日期;

af82dc8871c9544cb84e5b235ed18f8a.jpeg

从图中可以看出,pv、uv随着时间的整体走势是一致的,2017/12/2(周六)2017/12/3(周日)相较前面的日期,数量有大幅增长。

假设涨幅是因为周六、周日休息日,用户更多的空闲时间可以用于访问淘宝。

对此,我们往前对比上一个周末2017/11/25-2017/11/26的值,这两天的值相较于工作日2017/11/27-2017/12/1并没有明显涨幅。

假设不成立。

根据日常经验,考虑可能为双十二节日造势,提前的推广活动:如预付定金。查找资料证实猜测成立。

5.1.2 以24H为研究范围,PV、UV随着时间的变化情况

 
 
/*每小时pv查询*/
SELECT hour(时间),count(行为类型) as PV 
FROM userbehavior
WHERE 行为类型='pv'
GROUP BY hour(时间)

ORDER by hour(时间);
 
 
/*每小时uv查询*/
SELECT  hour(时间), count(distinct 用户ID) as UV
FROM userbehavior
WHERE 行为类型='pv'
GROUP BY hour(时间)
ORDER by hour(时间);
cf247a2a4dd591647879e1c879b38f46.jpeg

由图可以看出,24小时内,PV、UV随着时间的整体变化趋势是一致的。
在0-4点访问量和访问人数逐渐下降,
在4点逐渐回升,至10点逐步稳定,
10-18点呈现稳定略微波动的状态,
18点后逐渐升温,在21点达到峰值,之后逐渐回落。

整体走势与我们大多数人的作息习惯是吻合的

23点-7点为休息时间,期间访问人数和访问数量相对较低;

随着7点之后开始起床,逐渐进入活跃上升状态;

18点下班后,用户的空闲时间释放,访问量和人数又迎来一次上升。

可根据用户活跃时段来进行活动促销安排,促销时间安排在10点之后,以19-22点为最佳。

5.2 淘宝各个环节的转化率研究

655438c8b368d97558d25e561b14cd96.jpeg

从上图可以看出,点击浏览行为占比总行为量的89.77%,而购买仅占比2.11%,转化率非常低,仅为2.35%。

我们对转化率低的原因做进一步探究,做假设分析。

b892fdd14be374b3de380715b7689165.jpeg

5.2.1 各业务流程环节的转化率探究

本节对假设2:某些环节的准化率影响了整体转化率进行探究

购买流程共存在以下4种情况:

  • ① 浏览——收藏/加购——购买

  • ② 浏览——收藏/加购——流失

  • ③ 浏览——购买

  • ④ 浏览——流失

36444c7b73769ea737175a39a6cdb21d.jpeg

我们对各个环节的转化率及占比做进一步的计算。

①浏览——收藏/加购——购买的转化率

a.浏览——收藏/加购的转化率

a75499a4fbbe23188818cbe25146bc51.png

该阶段转化率为9.04%

b.收藏/加购——购买的转化率

先将收藏、加购行为的用户创建一个视图

create view C_F
as
select distinct 用户id
FROM userbehavior
where 行为类型 in('cart','fav');

4844f5dbda84229015ea09d646caf884.jpeg

计算收藏、加购的用户中购买的转化率,为23.96%

流程①各个环节转化率汇总如下:

168f5bb7fb8b344a9d30714daef0bf12.jpeg

这一流程的总转化率为9.04%*23.96%=2.17%

流程② :浏览——收藏/加购——流失

整个环节占比:9.04%-2.17%=6.87%

流程③ :浏览——购买 的转化率

c37d92b35ca07654af17820afd893728.jpeg

该环节转化率为0.18%

流程④ 浏览——流失 占比

该环节占比:流失率=100%-9.04%-0.18%=90.78%

各环节的占比情况汇总如下:

575428252c8361225be6d768e3fb01e7.jpeg

可以看出,用户的购买转化率是非常低的,整体购买转化率为2.35%,流失率高达97%。而用户浏览、收藏加购后的购买转化率2.17%远远大于浏览直接购买的转化率0.18%。
流程①浏览——收藏/加购——购买,前一阶段用户的转化率较低为9.04%,后一阶段的转化率为23.96%,相较还是比较可观的。‍

因此假设某些环节的准化率影响了整体转化率进行探究是成立的。

对此,可通过抽奖或者发放优惠券等奖励的方式吸引用户收藏及加购,从而提高转化率。

浏览后流失的用户我们在下一环节继续研究。

收藏/加购后流失的用户需要结合更多的数据进一步分析:

是否为短期内有活动,用户要先收藏/加购等活动价格更优惠时购买,需要该时间之后,如双12活动期及之前的数据做分析;

研究之后一段时间内用户是否购买同种类商品,如未购买,表明物品非刚需,但还是能够吸引到用户,说明产品的运维做的很棒;如购买,需要做竞品分析,我们的产品有竞争力却不足以驱使用户购买,进一步优化产品运营。

5.2.2 平台推荐的产品不是用户喜欢的产品

本节针对假设1平台推荐的产品用户不喜欢做研究论证

该问题需要拆解成两个部分:

  • ①平台推荐的产品top10:即点击量top10

  • ②用户购买产品top10

然后对两者做对比分析。

1. 分别取证用户购买top10类目和平台推送top10类目

 
 
/*平台推荐商品类目top10*/
SELECT 商品类目id,count(行为类型)as 'pv'
FROM userbehavior
WHERE 行为类型='pv'
GROUP BY 商品类目id
ORDER BY count(行为类型)desc
limit 10;
/*用户购买商品类目top10*/
SELECT 商品类目id,count(行为类型)as 'buy'
FROM userbehavior
WHERE 行为类型='buy'
GROUP BY 商品类目id
ORDER BY count(行为类型)desc
limit 10;

702e6359f47f9979d42c6001a21c4892.jpeg

发现销量TOP10和平台推送TOP10有4个产品类目是重叠的。

而平台推送TOP1类目【4756105】在用户购买排名中到了第7名,

平台推送TOP2类目【3607361】并未在用户购买排名中上榜,

平台推送TOP3类目【4145813】在用户购买排名中排名第二,

另外两个共同上榜类目是【9892926】、【4801426】

2. 取证用户购买top10产品和平台推送top10产品

01db905fa7a1a347ab3ebef4f2fc3905.jpeg

两部分数据做内联结,发现并无重叠。

b0e07d7e1e43f21a00a4866717aaf1da.jpeg

综上,平台推荐商品类目TOP10和用户购买商品类目TOP10只有4个是重叠的,

平台推荐商品id TOP10和用户购买商品id TOP10无重叠。

假设1平台推荐的产品用户不喜欢 成立。

对此,建议平台方优化算法,精准推送。

如商品的分类是否可以更加精准细化,参考用户的购买偏好多方面获取计算等。

1e03c0807a85396af2d722e703d0536d.jpeg

作者:sunshine

来源:https://zhuanlan.zhihu.com/p/258064720

 
 
●整理了4000字的数据可视化指南!
●SQL优化的魅力

9c0a8a01184373c4edab100ea3aed423.gif

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值