目录
一、项目介绍
1.1 数据集
数据集来源:淘宝用户购物行为数据集
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
列名称 | 说明 |
UserID | 用户ID,整数类型,序列化后的用户ID |
ItemID | 整数类型,序列化后的商品ID |
CategoryID | 整数类型,序列化后的商品所属类目ID |
BehaviorType | 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav') |
TimeStamp | 行为发生的时间戳 |
用户行为类型共有四种,它们分别是:
行为类型 | 说明 |
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
数据集大小说明如下:
维度 | 数量 |
用户数量 | 987,994 |
商品数量 | 4,162,024 |
商品类目数量 | 9,439 |
所有行为数量 | 100,150,807 |
1.2 分析思路
使用工具:MySQL Workbench、Excel、Jupyter Notebook
使用MYSQL数据库,先用Jupyter Notebook进行20%的数据抽样,然后在Workbench上进行数据预处理,最后用Workbench和EXCEL进行数据分析和可视化。