淘宝用户行为分析项目——MySQL数据分析+Tableau可视化

目录

1.项目描述

1.1项目数据

1.2项目目标

1.3分析思路

2.数据预处理

2.1观察数据

2.2处理字段

2.3处理值

2.3.1去空

2.3.2去重

2.3.3去异常

3.数据分析

3.1【人】

3.1.1获客情况(PV,UV,PV/UV)

3.1.2留存情况(留存率,跳失率)

3.1.3行为分析(时间,用户转化率【漏斗模型】,行为路径)

3.1.4用户定位(RFM模型)

3.2【货】

3.2.1热门品类分析

3.2.2热门商品分析

3.2.3商品四象限分析

3.3【场】

3.3.1平台功能分析

4.结论


1.项目描述

1.1项目数据

本项目数据是从阿里巴巴天池下载的一份淘宝用户行为的数据集,用于隐式反馈推荐问题的研究。

数据链接:数据集-阿里云天池 (aliyun.com)

此数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:

 其中,用户行为类型共有四种,它们分别是

 数据集大小如下,总数据数超过一亿条:

注:隐式反馈为不能明确反映用户喜好的行为,如浏览、点击、加入购物车等。相反显式反馈为用户明确表示对物品喜好的行为,如评分、评级等。显式和隐式反馈为推荐系统中用户对物品的两种反馈模式,显性反馈数值代表偏好程度,隐性反馈数值代表置信度。

隐式反馈的作用:显著提高推荐系统的预测准确率,体现着用户的兴趣爱好,对隐式反馈信息的挖掘有助于提高推荐系统的效果,以更好地设计推荐系统,提高推荐接受率。

1.2项目目标

总体目标:为客户提供更精准的隐式反馈推荐。

从数据集出发,我们的目标可从三个角度进行分析:
从网站角度:提高网站交叉销售能力,提高成交转化率,达到精准营销、提高转化率、降低弃购率、最终实现提高客户终身价值的目的。

从商家角度:提高用户忠诚度,帮助用户快速找到商品,推荐其真正感兴趣的商品,最终达到提高成交转化率、提高销售额的目的。

从消费者角度:对于消费者来说,为其精准推荐感兴趣的商品,使其能够快速找到需要的产品并下单购买是最终目标。

1.3分析思路

首先进行数据清洗,之后采用【人货场】模型对数据集进行分类分析,具体思维导图如下:

2.数据预处理

2.1观察数据

数据集共5个字段,user_id,item_id,item_category,buy_type,time,均是有用字段,不需要剔除。

2.2处理字段

处理字段可从字段名,字段类型,字段约束三方面入手。

观察发现本数据集中时间戳字段需要转换成时间日期字段,使用函数from_unixtime()进行转换

alter table retailers_trade_user 
add column date_time datetime null;
update retailers_trade_user
set date_time=from_unixtime(time);

增加日期、时间单独字段以便后续分析调用

-- 增加列dates只包含日期
alter table retailers_trade_user add column dates char(10) null;
update retailers_trade_user set dates=date(date_time);
-- 再加一列时间times
alter table retailers_trade_user add column times char(8);
update retailers_trade_user set times=time(date_time);

2.3处理值

2.3.1去空

select * from retailers_trade_user where user_id is null

每一字段都写上运行一次,发现没有空值。

2.3.2去重

为后期调用不改变原数据且方便,建临时表temp_trade,同时去除重复值:

create table temp_trade like retailers_trade_user;
insert into temp_trade select distinct  * from retailers_trade_user;

2.3.3去异常

因为本数据集有时间范围为2017年11月25日至2017年12月3日之间,因此先检查一下是否有时间异常值:

select max(date_time),min(date_time) from temp_trade;

发现存在异常,删除异常值:

delete from temp_trade
where date_time < '2017-11-25 00:00:00' or date_time > '2017-12-04 00:00:00';

3.数据分析

3.1【人】

3.1.1获客情况(PV,UV,PV/UV)

以日期作为分组,筛选每日PV,UV,PV/UV ,使用Tableau可视化如下:

数据时间范围内,访问量和独立访客数总体呈现平稳后上升的趋势,其中11.25-12.1保持平稳,12.2-12.3日有明显上升,上升幅度均可达30%,查询日期可知这两日为周末,但11.25 ~26同为周末,结合时间特征,可能是双十二活动预热成果显著。

Pv/uv一直保持在13左右,上下浮动不超过0.4,表明平均点击次数较高,且保持稳定。

3.1.2留存情况(留存率,跳失率)

留存率:用户在某段时间内开始使用应用,经过一段时间后,仍然继续使用该应用的用户,被认作是留存用户,这部分用户占当时新增用户的比例即是留存率。是判断用户黏性的重要指标。

受数据时间限制,只分析次日留存率,创建视图提取当日uv及次日留存数:

 创建新表计算并保存次日留存率:

 使用Tableua进行可视化:

  • 6
    点赞
  • 71
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值