一、项目背景和目的
本次项目主要是对淘宝用户行为进行分析,根据对用户和商品销售的分析结果,设计更有针对性、落地性的运营方案,有效增加营收。
数据来源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1&utm_source=wechat_session&utm_medium=social&utm_oi=775448241129943040
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。
字段:
用户行为类型:
二、分析维度
1、用户行为分析
基本行为详情 日pv、uv、活跃的日期和时间段
对用户行为从浏览到购买进行漏斗分析 :付费转化率、跳失率、收藏转化率 ,对用户行为从浏览到购买进行拆解分析。
2、商品销售分析
商品成交量、人均购买次数、复购率、购物车遗弃率【加车后未购买次数/加购物车次数】 探索用户购买偏好
3、用户价值分析
对用户的交易次数和交易频数通过RFM模型进行客户价值分析
三、提出问题
用户在每个节点的的转化情况
销量前十的商品和类别是否一致
用户活跃的时间段
重要价值用户占比
四、数据清洗
1、设置字段名称和主键
Create table userbehavior
(用户ID int null,
商品ID int null,
商品类目ID int null,
行为类型 text null,
时间戳 int null);
Alter table dianshang.userbehavior
Add id int not null auto_increment primary key
查询全部行数为1亿多条数据
由于数据量过大,截取前500万行的数据分析
DELETEF ROM dianshang.userbehavior
Where id>5000000
2、查询缺失值、重复值
Select count(用户ID),count(商品ID),count(商品类目ID),count(行为类型),count(时间戳)
From dianshang.userbehavior
计数相同未出现缺失值
查询重复值
Select *,count(用户ID) from dianshang.userbehavior
Group by 用户ID,商品ID,商品类目ID,时间戳
Having count(用户ID)>1
发现5列重复值
删除重复值
delete from dianshang.userbehavior
where id in (select a.* from
(select max(id) from dianshang.userbehavior
group by 用户ID,商品ID,商品类目ID,时间戳
having count(用户ID)>1) a)
删除5列重复值
3、将时间戳转换为时间格式
建立新列,将时间戳