一、数据说明以及需求分析
1.1数据说明
本数据集是阿里巴巴提供的一个淘宝用户行为数据集,本次分析数据提供了1万用户量级的完整行为数据。数据包含了抽样出来的1W用户在一个月时间(11.18~12.18)之内的移动端行为数据。
字段 |
字段说明 |
提取说明 |
user_id |
用户标识 |
抽样&字段脱敏 |
item_id |
商品标识 |
字段脱敏 |
behavior_type |
用户对商品的行为类型 |
包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4 |
item_category |
商品分类标识 |
字段脱敏 |
time |
行为时间 |
精确到小时级别 |
使用工具:Mysql数据库,DataGrip,Excel,Tableau
1.2数据需求分析
根据数据集特点,本次数据分析将从两个维度对数据进行分析:
用户维度
1、PV(页面浏览量)、UV(独立访客)、PV/UV
2、用户活跃度分析:分析用户在不同时段的活跃度,探索哪些时间段用户更倾向于进行购买或其他行为,进而优化营销策略和系统推荐。
3、用户购买行为分析:
间隔时间,了解用户再次购买的平均时间间隔,可以帮助预测用户下次购买的时间,投放优惠券
漏斗分析:从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析,构建用户行为漏斗模型,分析用户从浏览到购买各个环节的转化情况,找出可能存在的流失点并提出改进建议。
产品维度
1、浏览量、成交量、加购量、成交率探索用户对商品的购买偏好,了解商品的销售规律
2、用户价值分群(RFM模型)
二、数据处理
2.1时间格式处理
导入时发现time的格式并不是标准的时间格式,将其格式改成datetime:
导入数据如下:
为了能够进一步更好的分析时间数据,将添加time_date以及time_hour:
ALTER TABLE tbdata.user_action
ADD COLUMN time_date DATE,
ADD COLUMN time_hoUr TIME;
UPDATE tbdata.user_action
SET time_date = DATE(time),
time_hour = TIME(time);
处理格式结果如下: