基于MySQL与Tableau 实现淘宝用户购物行为分析项目

目录

前言

一、项目概述

1、数据介绍

2、思维导图

二、数据预处理

1、观察数据

2、数据导入

3.数据处理

三、用户行为分析

1、计算日新增用户

2、计算uv、pv、人均浏览次数反映用户情况

3、计算客户留存率

4、计算成交量与复购率

5、转化率(漏斗模型)

四、用户喜好分析

1、统计用户活跃时间段

2、统计用户点击、收藏、加购、购买的商品前10种类

五、用户价值分析

六、总结分析

1、实时监控活动的数据,及时调整活动营销策略

2、根据用户行为习惯,做出优惠活动

3、根据用户价值,制定合适的营销



前言

本项目带领大家对阿里移动电商数据集做了初步的数据分析,通过数据分析我们能对业务做出更好的洞察并进一步采取Action。

数据名称:UserBehavior.csv

分析工具:MySQL、Tableau、Nactive

一、项目概述

1、数据介绍

本项目数据来源于阿里云天池《淘宝用户购物行为数据可视化分析》进行研究。

数据链接:淘2宝用户购物行为数据可视化分析_数据集-阿里云天池 (aliyun.com)

本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:

用户行为详细描述如下:

数据集大小如下:

2、思维导图

二、数据预处理

1、观察数据

将数据文件导入nactive查看数据(连接数据库→新建表→导入数据)。

2、数据导入

由于数据文件中没有表头则用nactive修改数据列名,并将导入nactive的表头的数据重新添加。

由于原数据集记录量过大,选取前10万条数据进行研究

代码如下(示例):

create table if not exists user_behavior as 
    (select*from userbehavior limit 100000);

3.数据处理

对数据进行去重处理

代码如下(示例):

select distinct *from user_behavior 
   group by customer_id,order_id,category_id,behavoir_type,happening_time;

查看数据缺失值

select count(customer_id),count(order_id),count(category_id),count(behavoir_type),
   count(happening_time)from user_behavior;

结果记录均为100000条则数据集中并无缺失值


添加新列,对时间戳数据进行转换

#添加 order_dt日期时间列
alter table user_behavior add column  order_dt datetime;
update user_behavior set order_dt= from_unixtime(happening_time);

#添加 order_date日期列
alter table user_behavior add  order_date date;
update user_behavior set order_date= from_unixtime(happening_time);

#添加 order_dtime日期时间列
alter table user_behavior add  order_dtime time;
update user_behavior set order_dtime= from_unixtime(happening_time);

异常值处理:将不在2017年11月25号至2017年12月3日的用户行为记录进行剔除。

delete from user_behavior where order_dt not between'2017-11-25'and'2017-12-03';
select count(customer_id),count(order_id),count(category_id),count(behavoir_type),
   count(happening_time)from user_behavior;

剔除了13259条,剔除后的数据为86741条。

相关数据进行校对

select max(order_dt),min(order_dt)from user_behavior;

相关时间段为

2017-12-02 23:59:59 2017-11-25 00:00:17

三、用户行为分析

1、计算日新增用户

SELECT first_date,COUNT(DISTINCT customer_id) new_uv
FROM (SELECT customer_id,MIN(order_date) first_date FROM user_behavior 
      GROUP BY customer_id having MIN(order_date) between '2017-11-25' and '2017-12-02') t GROUP BY first_date;
first_date new_uv
2017/11/25 695
2017/11/26 170
2017/11/27 59
2017/11/28 32
2017/11/29 19
2017/11/30 8

分析:

从11月25日到12月1日随着时间的增加,日新增人数正在逐渐的减少 ,12月2日没有新增人数。

其中,25日至28日的日新增人数增长比较明显,28日到12月1日的新增人数较少,后续考虑新增人数减少的原因,是否与双12等促销活动有关。

2、计算uv、pv、人均浏览次数反映用户情况

总体uv、pv、人均浏览次数

数据分析案例之淘宝⽤户⾏为分析完整报告 ⼀、项⽬背景 ⼀、项⽬背景 UserBehavior为淘宝⽤户⾏为的数据集,数据集包括了2017年11⽉25⽇⾄2017年12⽉3⽇之间,有⼤约82万随机⽤户的⽤户⾏ 为(⾏为包括点击pv,购买buy,加购物车chart,收藏fav)数据。 ⼆、项⽬⽬标 ⼆、项⽬⽬标 通过对⽤户⾏为的分析,主要实现下⾯两个⽬的: 1、为客户提供更精准的隐式反馈,帮助⽤户更快速找到商品; 2、为提⾼公司的交叉销售能⼒,提⾼转化率,销售额,提升公司业绩。 三、分析思路 三、分析思路 主要从以下四个维度对⽤户⾏为进⾏分析和建议: 1、⽤户⾏为间的转化情况分析:利⽤漏⽃模型分析⽤户从商品浏览到购买整个过程中,常见的电商分析指标,确定各个环节流失率, 提出改善转化率的建议。 2、⽤户的⾏为习惯分析:利⽤pv、uv等指标,找出⽤户活跃的⽇期以及每天的活跃时间段。 3、⽤户类⽬偏好分析:根据商品的点击、收藏、加购、购买频率,探索⽤户对商品的购买偏好,找到针对不同商品的营销策略(购买 率较⾼的类⽬和产品,优化产品推荐)。 4、⽤户价值分析:找出最具有价值的核⼼⽤户群,针对这个群体推送个性化推送,优惠券或者活动。 逻辑如下: 四、数据处理 四、数据处理 主要使⽤⼯具:Navicat for MySQLMySQL, power BI。 (⼀)准备数据 (⼀)准备数据 1、数据来源 、数据来源 阿⾥云天池: 2、将数据导⼊ 、将数据导⼊MySQL 使⽤Navicat导⼊功能,导⼊后结果如下图,这⾥会出错卡在导⼊步骤的5/8位置。 使⽤代码直接导⼊,结果如下图,未出现上述卡住现象。 3、数据理解 、数据理解 本数据主要包含了⼤概82万条数据,每⼀⾏分别表⽰⼀个⽤的⾏为,由⽤户ID(User_ID)、产品ID(Item_ID)、类⽬ ID(Category_ID)、⾏为类型(Behavior_type)、时间戳(Timestamp),⾏为类型⼜分为点击(pv)、收藏(fav)、加购物车 (chart)、购买(buy)。 (⼆)数据清洗 (⼆)数据清洗 1、 、Timestamp⼀致化处理 ⼀致化处理 Timestamp列,⽆法直接分析,需要将其划分为三列,分别为时间,⽇期,⼩时。 --添加新列,根据Date_time返回⽇期时间 --添加新列,根据Date返回⽇期时间 --添加新列,根据Time返回⼩时 2、挑出⽬标数据集 、挑出⽬标数据集 由于项⽬背景是需要对2017年11⽉25⽇⾄2017年12⽉3⽇之间⽤户⾏为数据集进⾏隐式反馈推荐问题的研究,所以需要对不在这 个时间内的数据进⾏删除。 --先检查是否有在2017-11-01和2017-11-20之间的时间值。 --删除掉这段时间以外的⾏ 3、删除重复值 、删除重复值 使⽤SQL语句发现,有出现重复字段。 全字段重复有两⾏,下⾯去重⽅法并不对全字段的奏效,我采⽤的是直接删除,删除数据仅4⾏针对现有的380万⾏数据影响较⼩。 4、缺失值处理 、缺失值处理 对所有列进⾏了计数查询后,发现'Timestamp'字段有null值,然后我们删除空值所在的列。 数据清洗完毕。 导⼊数据集⼤⼩预览: (三)数据分析 (三)数据分析 结果均为先使⽤sql分析数据,获得分析结果,然后将分析结果导出到excel或者power BI中进⾏可视化。 1、数据整体情况概述 、数据整体情况概述 a、总体uv、pv、⼈均浏览次数、成交量 b、⽇均uv、pv、⼈均浏览次数、成交量 使⽤power BI处理数据后将其导出后分析对应的每个指标时间之间的关系。 c.⽤户整体⾏为数据 d、⽤户的复购率和跳失率 2017年11⽉25⽇⾄2017年12⽉3⽇之间,⽤户的复购率为66.4%且流失率为0,说明淘宝对⽤户有较⼤的吸引⼒使⽤户停留且⽤户 的忠诚度⾮常⾼。可以进⼀步提⾼复购率,⿎励⽤户更⾼频次的购物。 2、⽤户转化情况分析 、⽤户转化情况分析 a、⽤户转化率及流失分析 上图统计了各个⾏为的总数量,点击后,到加购物车或者收藏概率在3%-6%之间,⽽最后真正购买的概率降到了2.4%,说明⽤户的⾏ 为在浏览了商品详情页后出现了⼤量的流失。但是⽤户是否也是在点击后产⽣了⼤量的流失呢? 对此,对各个⽤户⾏为类型的⽤户数进⾏了统计,并使⽤漏⽃转化模型进⾏了处理,建⽴了⽤户转化漏⽃图。 上图可以看出,⽤户并未点击后就⼤量流失,并且最后付费⽤户⽐例达到了69%,购买率达到了7成,说明⽤户的购买意愿较为理想。 结合⽤户⾏为数统计推断⽤户的点击⾏为远远超过了收藏和加购物车的⾏为,说明⽤户有较⼤的可能在购物时有"货⽐三家"的习惯。 所以针对⼤部分点击后转化到加购物车和收藏的概率较低有较⼤的提升空间,APP可以通过优化推荐商品的功
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值