数据分析2-淘宝用户行为分析_阿里云天池(SQL+Excel+Tableau)

淘宝用户行为分析项目背景明确分析的目的数据处理数据清洗重复数据处理缺失数据处理逻辑错误处理数据转化数据提取数据分析用户日活跃和周活跃有什么规律吗?每日的新增用户如何当日活跃用户的次日留存,三日留存怎么样?用户从浏览到购买的整体转化率怎么样用户从浏览到购买的路径什么样?点击->直接购买点击->加购不收藏->购买点击->收藏不加购->购买点击->收藏且加购->购买平台主要给用户推送什么商品?用户喜欢什么样的商品?怎么判断哪些是高价值用户 ?项目背景UserBehav
摘要由CSDN通过智能技术生成

项目背景

UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。

本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。

明确分析的目的

  • 用户活跃时段,指标趋势
  • 用户对哪些产品、类目感兴趣
  • 用户的留存率
  • 用户购买行为特点
  • 根据RFM模型对用户分类

数据处理

数据清洗

重复数据处理

select user_id
from userbehavior
group by user_id,item_id,timestamps
having count(user_id)>1;

在这里插入图片描述

缺失数据处理

-- 查找缺失值
select count(user_id),count(item_id),count(category_id),
count(behavior_type),count(timestamps)
from userbehavior;

在这里插入图片描述

逻辑错误处理

分析的时间范围是2017-11-25至2017-12-3 (9天)

delete from userbehavior
where dates>'2017-12-3'OR dates<'2017-11-25';

-- 检查数据是否有异常值
select * from userbehavior
where dates>'2017-12-3'OR dates<'2017-11-25';

在这里插入图片描述

数据转化

timestamp字段为时间戳字符类型,将其转化为日期时间类型
时间戳转换

-- 处理时间戳FROM_UNIXTIME(unix_timestamp,format)
-- 添加新的列,日期时间
alter table userbehavior                
add dates_time timestamp(0) NULL;   

update userbehavior set dates_time=FROM_UNIXTIME(timestamps);

数据提取

分析日活、月活需要日期和小时字段

-- 添加新的列,返回日期
alter table userbehavior                
add dates char(10) NULL;   
update userbehavior set dates=FROM_UNIXTIME(timestamps,"%Y-%m-%d");
-- 添加新的列,返回时间
alter table userbehavior                
add times char(10) NULL;   
update userbehavior set times=FROM_UNIXTIME(timestamps,"%T");
-- 返回小时
alter table userbehavior                
add hours char(10) NULL;   
update userbehavior set hours=left(times,2);

在这里插入图片描述

数据分析

用户日活跃和周活跃有什么规律吗?

查询用户每天流量,并创建视图

create view 每天流量 as 
select count(distinct user_id) as 每日用户数,
sum(case when behavior_type='pv' then 1 else 0 end) as 总点击量,
sum(case when behavior_type='fav' then 1 else 0 end) as 总收藏量,
sum(case when behavior_type='cart' then 1 else 0 end) as 总加购量,
sum(case when behavior_type='buy' then 1 else 0 end) as 总下单量,
dates as 日期
from userbehavior
group by dates;

Excel可视化:
在这里插入图片描述
分析:11/25-12/01这七天网站的流量没有太大波动,总体呈上升趋势,其中12/02 和12/03两天的各项日均流量指标显著大于前7天。
推测1可能是因为淘宝双12预热活动,使得浏览量大幅增加。
推测2可能这两天是周末,相比11/25和11/26为什么显著增加,是否是新用户增长带来的?

查询用户每时流量并创建视图

  • 2
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值