转自:数据分析不是个事儿
本文是上篇用户路径分析的实操案例部分。文章很长,所以分为上下两篇。
01
分析背景
电商行业经过十几年的发展,已经步入成熟发展阶段。作为电商头部企业,淘宝、京东、拼多多3家企业已经呈现分庭抗礼的状态,现阶段的用户获客成本很高。实现用户增长,购买转化率提升已经不能再单纯依赖于电商行业红利,从粗狂化运营到精细化运营是必然趋势。从各个维度对用户数据进行细化分析,降低颗粒度,在业务中指导方向具有很大的意义。
本文将从淘宝用户行为数据着手分析,为精细化运营提出业务指导性意见。
02
提出问题
1. pv、uv随着时间的分布研究。
2. 淘宝各个环节的转化率研究。
3. 用户活跃天数与购买行为的相关性研究
4. 使用RFM分析方法对用户按价值分类
分析思路
分析工具:SQL查询、tableau可视化、mindmaster流程图
03
理解数据
本数据集 (UserBehavior.csv) 包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。
数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成。
向右滑动查看更多
数据来源:阿里巴巴天池
04
清洗数据
4.1 导入数据
由于数据量较大,本次导入数据前30万条做分析研究。
源数据没有列名,在此先将第一行作为列名,再将目标字段修改为对应的列名。
此处全部先以varchar类型导入数据。
将用户id、商品id、时间戳3列设为联合主键。
导入后的数据如下:
4.2 查找缺失值
对数据进行一个整体的统计,每列的数据均为300000,无缺失值。
4.3 删除重复值
用户可以对某个商品进行多次浏览、收藏、加购和购买,但对某个商品在特定时间点只能够有一种行为类型。在此针对用户id、商品id、时间戳作为一个整体来查重。
发现并无重复值。
4.4 一致化处理
时间戳这一列方便后续分析,从这一列中提取出常规形式的日期、时间。
/*添加日期列*/
alter table userbehavior add 日期 varchar(255);
update userbehavior set 日期=FROM_UNIXTIME(时间戳,'%Y-%m-%d');
/*添加时间列*/
ALTER table userbehavior add 时间 varchar(255);
update userbehavior set 时间=FROM_UNIXTIME(时间戳,'%H:%i:%s');
格式如下:
4.5 异常值处理
查找行为类型的值无异常。
查找日期值,发现有研究目标日期2017/11/25-2017/12/3之外的数据。
在此做删除处理。
重新验证下删除后的数据,符合标准。
04
数据分析
先对数据进行一个整体了解,共有行为记录299862条,用户数量2953,商品数量162887,商品类目数量4512,行为类型数量为4。
商品类目、商品种类都非常齐全。
5.1 PV、UV随时间分布情况研究
5.1.1 以天为单位,PV、UV随日期分布情况
/*每日PV查询*/
SELECT 日期,count(行为类型) as PV
FROM userbehavior
WHERE 行为类型='pv'
GROUP BY 日期
ORDER by 日期;
/*每日UV查询*/
SELECT 日期,count(distinct 用户ID) as UV
FROM userbehavior
WHERE 行为类型='pv'
GROUP BY 日期
ORDER by 日期;
从图中可以看出,pv、uv随着时间的整体走势是一致的,2017/12/2(周六)2017/12/3(周日)相较前面的日期,数量有大幅增长。
假设涨幅是因为周六、周日休息日,用户更多的空闲时间可以用于访问淘宝。
对此,我们往前对比上一个周末2017/11/25-2017/11/26的值,这两天的值相较于工作日2017/11/27-2017/12/1并没有明显涨幅。
假设不成立。
根据日常经验,考虑可能为双十二节日造势,提前的推广活动:如预付定金。查找资料证实猜测成立。
5.1.2 以24H为研究范围,PV、UV随着时间的变化情况
/*每小时pv查询*/
SELECT hour(时间),count(行为类型) as PV
FROM userbehavior
WHERE 行为类型='pv'
GROUP BY hour(时间)
ORDER by hour(时间);
/*每小时uv查询*/
SELECT hour(时间), count(distinct 用户ID) as UV
FROM userbehavior
WHERE 行为类型='pv'
GROUP BY hour(时间)
ORDER by hour(时间);

由图可以看出,24小时内,PV、UV随着时间的整体变化趋势是一致的。
在0-4点访问量和访问人数逐渐下降,
在4点逐渐回升,至10点逐步稳定,
10-18点呈现稳定略微波动的状态,
18点后逐渐升温,在21点达到峰值,之后逐渐回落。
整体走势与我们大多数人的作息习惯是吻合的
23点-7点为休息时间,期间访问人数和访问数量相对较低;
随着7点之后开始起床,逐渐进入活跃上升状态;
18点下班后,用户的空闲时间释放,访问量和人数又迎来一次上升。
可根据用户活跃时段来进行活动促销安排,促销时间安排在10点之后,以19-22点为最佳。
5.2 淘宝各个环节的转化率研究
从上图可以看出,点击浏览行为占比总行为量的89.77%,而购买仅占比2.11%,转化率非常低,仅为2.35%。
我们对转化率低的原因做进一步探究,做假设分析。
5.2.1 各业务流程环节的转化率探究
本节对假设2:某些环节的准化率影响了整体转化率进行探究
购买流程共存在以下4种情况:
① 浏览——收藏/加购——购买
② 浏览——收藏/加购——流失
③ 浏览——购买
④ 浏览——流失
我们对各个环节的转化率及占比做进一步的计算。
①浏览——收藏/加购——购买的转化率
a.浏览——收藏/加购的转化率
该阶段转化率为9.04%
b.收藏/加购——购买的转化率
先将收藏、加购行为的用户创建一个视图
create view C_F
as
select distinct 用户id
FROM userbehavior
where 行为类型 in('cart','fav');
计算收藏、加购的用户中购买的转化率,为23.96%
流程①各个环节转化率汇总如下:
这一流程的总转化率为9.04%*23.96%=2.17%
流程② :浏览——收藏/加购——流失
整个环节占比:9.04%-2.17%=6.87%
流程③ :浏览——购买 的转化率
该环节转化率为0.18%
流程④ 浏览——流失 占比
该环节占比:流失率=100%-9.04%-0.18%=90.78%
各环节的占比情况汇总如下:
可以看出,用户的购买转化率是非常低的,整体购买转化率为2.35%,流失率高达97%。而用户浏览、收藏加购后的购买转化率2.17%远远大于浏览直接购买的转化率0.18%。
流程①浏览——收藏/加购——购买,前一阶段用户的转化率较低为9.04%,后一阶段的转化率为23.96%,相较还是比较可观的。
因此假设某些环节的准化率影响了整体转化率进行探究是成立的。
对此,可通过抽奖或者发放优惠券等奖励的方式吸引用户收藏及加购,从而提高转化率。
浏览后流失的用户我们在下一环节继续研究。
收藏/加购后流失的用户需要结合更多的数据进一步分析:
是否为短期内有活动,用户要先收藏/加购等活动价格更优惠时购买,需要该时间之后,如双12活动期及之前的数据做分析;
研究之后一段时间内用户是否购买同种类商品,如未购买,表明物品非刚需,但还是能够吸引到用户,说明产品的运维做的很棒;如购买,需要做竞品分析,我们的产品有竞争力却不足以驱使用户购买,进一步优化产品运营。
5.2.2 平台推荐的产品不是用户喜欢的产品
本节针对假设1平台推荐的产品用户不喜欢做研究论证
该问题需要拆解成两个部分:
①平台推荐的产品top10:即点击量top10
②用户购买产品top10
然后对两者做对比分析。
1. 分别取证用户购买top10类目和平台推送top10类目
/*平台推荐商品类目top10*/
SELECT 商品类目id,count(行为类型)as 'pv'
FROM userbehavior
WHERE 行为类型='pv'
GROUP BY 商品类目id
ORDER BY count(行为类型)desc
limit 10;
/*用户购买商品类目top10*/
SELECT 商品类目id,count(行为类型)as 'buy'
FROM userbehavior
WHERE 行为类型='buy'
GROUP BY 商品类目id
ORDER BY count(行为类型)desc
limit 10;
发现销量TOP10和平台推送TOP10有4个产品类目是重叠的。
而平台推送TOP1类目【4756105】在用户购买排名中到了第7名,
平台推送TOP2类目【3607361】并未在用户购买排名中上榜,
平台推送TOP3类目【4145813】在用户购买排名中排名第二,
另外两个共同上榜类目是【9892926】、【4801426】
2. 取证用户购买top10产品和平台推送top10产品
两部分数据做内联结,发现并无重叠。
综上,平台推荐商品类目TOP10和用户购买商品类目TOP10只有4个是重叠的,
平台推荐商品id TOP10和用户购买商品id TOP10无重叠。
假设1平台推荐的产品用户不喜欢 成立。
对此,建议平台方优化算法,精准推送。
如商品的分类是否可以更加精准细化,参考用户的购买偏好多方面获取计算等。
作者:sunshine
来源:https://zhuanlan.zhihu.com/p/258064720
●整理了4000字的数据可视化指南!
●SQL优化的魅力