1 背景介绍
电子商务是指以信息网络技术为手段,以商品交换为中心的商务活动,人们通过互联网进行购物,非常方便。
卖家可以根据用户产生的数据,改进营销策略,提升商品销售,最大化收益。
2 数据源介绍
数据源是天池竞赛的数据,包含2017年11月25日至2017年12月3日之间的用户行为数据。用户数大约100万,数据集记录数大约1亿。
由于数据量太大,本文选择前100万行记录来做分析。
3 分析目标
电商行业的主要分析目标有:用户、商品、网站分析、购买行为等。
分析方法有:对比分析、分组分析、结构分析、矩阵分析等分析方法。
分析模型有:漏斗模型、AARRR模型、RFM模型等。图-分析思维导图
3.1 目标&需求
根据数据集已有的字段,分析目标如下:网站分析:页面浏览量PV、访客数UV、跳失率。
用户分析:购买用户数、购买次数、复购率。
商品分析:销售量排名、产品类别分布、复购率高的商品。
购买行为分析:点击、添加购物车、购买、各环节转化率。
4 数据清洗&数据处理
创建表和导入数据:创建表user_behavior,一共有5个字段:userId, itemId, categoryId, behaviorType, timestamp。使用导入功能导入前100万行数据到数据库中。(有一亿多行记录,数据量过大,所以选择前100万行记录来处理)
开始数据清洗:
做备份(建议做此步骤):
create table user_behavior_bak as select * from user_behavior;
检查重复值:
select distinct * from user_behavior;
检查缺失值:
select * from user_behavior where userId is null;
添加时间相关的列:
alter table user_behavior add column datetime datetime;
update user_behavior set datetime =from_unixtime(timestamp, '%Y-%m-%d %H:%i:%s');
alter table user_behavior add column date char(10);
update user_behavior set date=from_unixtime(timestamp,