一、提出问题
1.用户整体购物情况(pv、uv、日均访问量、购买行为的用户数量、用户的购物情况、复购率)
2.用户行为转化率漏斗分析
3.购买率高和购买率0的用户有什么特征
4.分析时间维度了解用户的行为习惯
本次分析使用用户行为理论分析,分析思路如下图:
二、数据获取
该数据集来源于阿里云天池(淘宝用户行为数据集),数据选取了淘宝APP2014年11月18日至12月18日的用户行为数据。
三、理解数据
数据集包含6个字段,一共1048575条数据。
字段信息说明:
四、数据处理
缺失值处理:
由于item_category列字段数据地理位置数据大多是空值,且位置信息加密了处理了,所以不做和地理位置相关的分析。
数据分组:
使用Excel将time字段分成日期和时间列
数据转换:
将behavior_type列1(点击)、2(收藏)、3(加入购物车)、4(购买)转换为pv、fav、cart、buy。
update tianchir set behavior_type = replace(behavior_type, 1, 'pv');
update tianchir set behavior_type = replace(behavior_type, 2, 'fav');
update tianchir set behavior_type = replace(behavior_type, 3, 'cart');
update tianchir set behavior_type = replace(behavior_type, 4, 'buy');
修改date列为日期类型:
alter table tianchir modify date date;
五、数据分析及可视化
1.用户整体购物情况
(1)pv(总访问量)
select count(behavior_type) as '总浏览数'
from tianchir
group by behavior_type
having behavior_type = 'pv';
(2)uv(总用户数)
select count(distinct user_id) as '用户总数'
from tianchir
(3)日均访问量
select date, count(behavior_type) as '日均访问量'
from tianchir
where behavior_type = 'pv'
group by date
order by date;