文章目录 1. 数据概述 2. 分析思路 提出问题 提出假设 数据分析 3. 数据预处理 选择子集 补全表格 删除重复值 处理缺失值 处理日期时间(数据一致性) 异常值处理 表格预览 4. 数据分析 4.1 行为分析 4.1.1 查看各种行为的整体情况 4.1.2 不同路径行为转化率 4.1.3 对结果的分析 4.1.4 提出假设 4.2 消费分析 其他角度的分析(已经舍弃) 5. 总结 1. 数据概述 数据来源:阿里巴巴 数据集下载:User Behavior Data from Taobao for Recommendation 介绍 UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。 数据集 本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击pv、购买buy、加购cart、喜欢fav)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下: 补充说明 用户行为类型共有四种,它们分别是: 数据集大小的一些说明