一、提出问题
1、 平台的用户流失情况是怎样的?
2、 造成该种流失情况是原因是什么?
二、理解数据
1、 数据来源
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
本数据集(UserBehavior.csv)包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、收藏)。
数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,源文件数据100,150,807条
2、 字段含义
列名称说明
用户ID:字符串类型,用户ID
商品ID:字符串类型,商品ID
商品类目ID:字符串类型,商品所属类目ID
行为类型:字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav')
时间戳:整型,行为发生的时间戳
注意到,用户行为类型共有四种,它们分别是
行为类型说明
pv:商品详情页pv,等价于点击
buy:商品购买
cart:将商品加入购物车
fav:收藏商品
三、数据清洗
通过数据库管理工具Navicat将数据集导入MySQL数据库中。
1、 选择子集
数据集全部为有效记录,由于数量巨大,故此仅随机导入了10,0000以供后续分析。
2、 删除重复值
无重复值
3、 缺失值处理
对所有列进行计数,计数结果都为99999,不存在缺失值。
![77634b06b4c24f684883aa2d16a6693c.png](https://img-blog.csdnimg.cn/img_convert/77634b06b4c24f684883aa2d16a6693c.png)
4、 一致化处理
由于timestamp包含了(年-月-日)和小时,为了方便,将该字段分成2个字段,一个日期列一个时间列
![a88431e7a81e481e1a7d296a483db19c.png](https://img-blog.csdnimg.cn/img_convert/a88431e7a81e481e1a7d296a483db19c.png)
![45108e5d98936da39819b35f2fb86864.png](https://img-blog.csdnimg.cn/img_convert/45108e5d98936da39819b35f2fb86864.png)
![ab7e01152d04c37098e8918aa2e0ce09.png](https://img-blog.csdnimg.cn/img_convert/ab7e01152d04c37098e8918aa2e0ce09.png)
5、 异常值处理
检查是否有错误时间戳,如负数或者0;不存在错误时间戳