Python数据分析实战项目——淘宝用户行为分析

会喊六的鱼干

已于 2024-03-20 01:20:13 修改

阅读量5.1k

点赞数 24

文章标签：数据分析数据挖掘 python

于 2024-03-19 23:13:32 首次发布

本文链接：https://blog.csdn.net/2301_76427842/article/details/136812648

版权

4.1.1 整体概况（UV、PV、平均访问量、交易总数、交易用户比例，复购率和跳失率）

4.1.1.1（UV、PV、平均访问量、交易总数、交易用户比例）

一、项目背景

UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集，用于隐式反馈推荐问题的研究。数据集包含了2017年11月25日至2017年12月3日之间，有行为的约一百万随机用户的所有行为（行为包括点击、购买、加购、喜欢）。

构造推荐系统的关键资源是用户历史行为数据，具体可分为两类：显式反馈和隐式反馈。

显式反馈：直接表现用户的喜好倾向，如评分等。

优点：

能提供更可靠的数据，不涉及从操作中提取偏好

个性化程度足够高

能够立即反馈给推荐系统

缺点：

需要用户的努力，而用户不总有时间和兴趣提供足够的信息

用户评分的主观性较强，会受到社会评价影响

数据量较少

隐式反馈：不直接表现用户倾向的历史数据，如转发微博、浏览网站或购买商品等。

优点：

从系统行为推断用户的偏好来减轻用户的负担

隐形偏好数据相对更客观，用户不必以社会期望的方式做出回应，也没有自我形象问题或维护形象的需要

数据量大

缺点：

不太准确

需要处理数据后才能反馈给推荐系统

二、数据收集

2.1 数据来源

https://tianchi.aliyun.com/dataset/649?t=1710751744909

2.2 数据信息

文件名称	说明	包含特征
UserBehavior.csv	包含所有的用户行为数据	用户ID，商品ID，商品类目ID，行为类型，时间戳

本数据集包含了2017年11月25日至2017年12月3日之间，有行为的约一百万随机用户的所有行为（行为包括点击、购买、加购、喜欢）。数据集的每一行表示一条用户行为，由用户ID、商品ID、商品类目ID1、行为类型和时间戳组成，并以逗号分隔。关于数据集中每一列的详细描述如下：

列名称	说明
用户ID	整数类型，序列化后的用户ID
商品ID	整数类型，序列化后的商品ID
商品类目ID	整数类型，序列化后的商品所属类目ID
行为类型	字符串，枚举类型，包括('pv', 'buy', 'cart', 'fav')
时间戳	行为发生的时间戳

用户行为类型共有四种，它们分别是

行为类型	说明
pv	商品详情页pv，等价于点击
buy	商品购买
cart	将商品加入购物车
fav	收藏商品

2.3 项目目标

2.3.1 分析目的

用户角度：为用户推荐其真正感兴趣的商品，提高用户忠诚度。

网站角度：达到精准营销，提高成交转化率。

2.3.2 分析目标

1. 用户行为分析

①整体概况（PV，UV，复购率，跳失率等）

②用户转化漏斗分析

2. 时间维度分析--用户在哪些时间段活跃

①用户行为时段分析

②用户量时段分析

3. 商品分析--用户对哪些商品、类目感兴趣

①热门商品分析

②热门商品类目分析

4. 用户群体分类：RFM模型分析

三、数据读取与清洗

3.1 导入数据

首先导入数据，并根据对应列的描述给定列名，增强可读性；由于数据量过大，选取前100w行进行分析。

3.2 重复值处理

查看是否有重复值：无重复值。

3.3 缺失值处理

查看是否有空值：无空值。

查看每列的唯一值数量。

访问用户总数：9739

商品总数：399114

商品类目总数：5796

3.4 时间处理

将时间戳转为日期，由于数据集分析时间范围是2017-11-25至2017-12-03，剔除日期以外的数据。to_datetime不会处理时区问题，因此将Unix 时间戳转换为中国时区时间要加8小时，转换完成后保留2017-11-25至2017-12-03期间的数据，重置索引，接着按照日期和小时进行时间拆分，最后删除时间戳。