目录
4.1.1 整体概况(UV、PV、平均访问量、交易总数、交易用户比例,复购率和跳失率)
4.1.1.1(UV、PV、平均访问量、交易总数、交易用户比例)
一、项目背景
UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,用于隐式反馈推荐问题的研究。数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。
构造推荐系统的关键资源是用户历史行为数据,具体可分为两类:显式反馈和隐式反馈。
显式反馈:直接表现用户的喜好倾向,如评分等。
优点:
- 能提供更可靠的数据,不涉及从操作中提取偏好
- 个性化程度足够高
- 能够立即反馈给推荐系统
缺点:
- 需要用户的努力,而用户不总有时间和兴趣提供足够的信息
- 用户评分的主观性较强,会受到社会评价影响
- 数据量较少
隐式反馈:不直接表现用户倾向的历史数据,如转发微博、浏览网站或购买商品等。
优点:
- 从系统行为推断用户的偏好来减轻用户的负担
- 隐形偏好数据相对更客观,用户不必以社会期望的方式做出回应,也没有自我形象问题或维护形象的需要
- 数据量大
缺点:
- 不太准确
- 需要处理数据后才能反馈给推荐系统
二、数据收集
2.1 数据来源
https://tianchi.aliyun.com/dataset/649?t=1710751744909
2.2 数据信息
文件名称 | 说明 |
包含特征 |
UserBehavior.csv | 包含所有的用户行为数据 | 用户ID,商品ID,商品类目ID,行为类型,时间戳 |
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID1、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
列名称 | 说明 |
用户ID | 整数类型,序列化后的用户ID |
商品ID | 整数类型,序列化后的商品ID |
商品类目ID | 整数类型,序列化后的商品所属类目ID |
行为类型 | 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav') |
时间戳 | 行为发生的时间戳 |
用户行为类型共有四种,它们分别是
行为类型 | 说明 |
pv | 商品详情页pv,等价于点击 |
buy | 商品购买 |
cart | 将商品加入购物车 |
fav | 收藏商品 |
2.3 项目目标
2.3.1 分析目的
用户角度:为用户推荐其真正感兴趣的商品,提高用户忠诚度。
网站角度:达到精准营销,提高成交转化率。
2.3.2 分析目标
1. 用户行为分析
①整体概况(PV,UV,复购率,跳失率等)
②用户转化漏斗分析
2. 时间维度分析--用户在哪些时间段活跃
①用户行为时段分析
②用户量时段分析
3. 商品分析--用户对哪些商品、类目感兴趣
①热门商品分析
②热门商品类目分析
4. 用户群体分类:RFM模型分析
三、数据读取与清洗
3.1 导入数据
首先导入数据,并根据对应列的描述给定列名,增强可读性;由于数据量过大,选取前100w行进行分析。
3.2 重复值处理
查看是否有重复值:无重复值。
3.3 缺失值处理
查看是否有空值:无空值。
查看每列的唯一值数量。
访问用户总数:9739
商品总数:399114
商品类目总数:5796
3.4 时间处理
将时间戳转为日期,由于数据集分析时间范围是2017-11-25至2017-12-03,剔除日期以外的数据。to_datetime不会处理时区问题,因此将Unix 时间戳转换为中国时区时间要加8小时,转换完成后保留2017-11-25至2017-12-03期间的数据,重置索引,接着按照日期和小时进行时间拆分,最后删除时间戳。
四、 数据分析
4.1 用户行为分析
4.1.1 整体概况(UV、PV、平均访问量、交易总数、交易用户比例,复购率和跳失率)
4.1.1.1(UV、PV、平均访问量、交易总数、交易用户比例)
可以得到:
独立访问用户总数(UV):9739
页面总访问量(PV):895636</