目录
一、项目背景和目的
-
1.1项目背景
- 移动互联网企业运营管理过程中,需要结合用户行为、商品及其市场等数据分析,对用户开展有针对性的运营活动,提供个性化、差异化的运营策略,以实现运营业务指标。本项目利用sql对淘宝用户行为数据进行分析,结合人货场模型,提供针对性的运营策略。
-
1.2项目目的
- 通过对taobao用户行为数据分析,为以下问题提供解释和改进建议:
- 1、分析用户使用APP过程中的常见电商分析指标,找到用户偏好商品,针对用户行为提出营销策略,提高用户忠诚度。
- 2、研究用户在不同时间尺度下的行为规律,找到用户在不同时间周期下的活跃规律,在用户活跃时间点推出相应营销策略。
- 3、建立用户行为转化漏斗模型,确定各个环节的转化率,找到需要改进的环节
- 4、分析商品特征,寻找⾼浏览商品
-
二、数据来源和数据清洗
-
2.1数据介绍
- 阿里天池‘‘淘宝用户购物行为数据集'’: 数据集-阿里云天池
- 本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
- 原数据量太大,本项目仅截取100w条行为数据作为本次数据分析的数据集,使用的 Navicat Premium数据库管理工具连接Mysql 8.0,进行对UserBehavior.csv 数据集的处理
-
2.2数据清洗
-
2.2.1观察数据添加需要的字段
- 各字段数量
- 预览前十条数据。发现timestamp为整数型数据,可以在后期增加一个字段datetimes,把它修改成日期型。
- 添加字段前,可以更改一下缓冲值的大小,把缓冲值增加到10g,加快更改的速度
- 添加字段,根据Timestamp新建datetimes,date,time,hour
-
2.2.2检查是否存在重复值
- 可以将userid,itemid,categoryID,timestamp四者进行联合,对数据集分组。
- 结果:不存在重复值
-
2.2.3检查是否存在异常值
- 由于数据集时间范围为2017-11-25至2017-12-3,因此需要对不在该时间范围内的异常数据进行过滤。
- 结果:存在异常值
- 处理:去除异常值(注意:是去除异常值,日期范围要正确选择;是or不是and。)
- 再次检查,删除成功
-