淘宝用户行为分析

一、项目背景和目的

本次项目主要是对淘宝用户行为进行分析,根据对用户和商品销售的分析结果,设计更有针对性、落地性的运营方案,有效增加营收。

 

数据来源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1&utm_source=wechat_session&utm_medium=social&utm_oi=775448241129943040

 

本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。

 

字段:

 

用户行为类型:

 

二、分析维度

1、用户行为分析  

基本行为详情  日pv、uv、活跃的日期和时间段

对用户行为从浏览到购买进行漏斗分析 :付费转化率、跳失率、收藏转化率 ,对用户行为从浏览到购买进行拆解分析。

 

2、商品销售分析

商品成交量、人均购买次数、复购率、购物车遗弃率【加车后未购买次数/加购物车次数】 探索用户购买偏好

 

3、用户价值分析

 对用户的交易次数和交易频数通过RFM模型进行客户价值分析

 

 

三、提出问题

 

用户在每个节点的的转化情况

销量前十的商品和类别是否一致

用户活跃的时间段

重要价值用户占比

 

 

四、数据清洗

1、设置字段名称和主键

Create table userbehavior

(用户ID int null,

商品ID int null,

商品类目ID int null,

行为类型 text null,

时间戳 int null);

Alter table dianshang.userbehavior

Add id int not null auto_increment primary key

查询全部行数为1亿多条数据

由于数据量过大,截取前500万行的数据分析

DELETEF ROM dianshang.userbehavior

Where id>5000000

 

2、查询缺失值、重复值

Select count(用户ID),count(商品ID),count(商品类目ID),count(行为类型),count(时间戳)

From dianshang.userbehavior

计数相同未出现缺失值

 

查询重复值

Select *,count(用户ID) from dianshang.userbehavior

Group by 用户ID,商品ID,商品类目ID,时间戳

Having count(用户ID)>1

 

发现5列重复值

 

删除重复值

delete from dianshang.userbehavior

           where id in (select a.* from

           (select max(id) from dianshang.userbehavior

           group by 用户ID,商品ID,商品类目ID,时间戳

           having count(用户ID)>1) a)

 

 

删除5列重复值

 

3、将时间戳转换为时间格式

建立新列,将时间戳

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值