阿里天池:淘宝用户行为分析项目

基于阿里天池的淘宝用户商品行为数据,该项目分析了用户行为模式,涉及PV、UV、流量指标等,使用多维度拆解、对比分析等方法。发现流量在周五最低,双十二活动带来流量显著增长,活动后用户数上升但浏览次数下降。后续将从用户行为维度深入分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据来源:阿里天池 - 淘宝用户商品行为数据
(在这里仅选用表名为 “tianchi_mobile_recommend_train_user” 中的数据,用作淘宝用户行为分析)


项目未完待续,持续更新中。。。


一、项目背景

本数据分析报告,以阿里天池的淘宝平台交易数据集为基础,通过行业指标对淘宝用户行为进行分析,从而探索电商行业用户行为模式,并从拉新、留存、促活、转化等多运营维度提出优化建议。

  • 具体指标包括:PV、UV、付费率、复购率、漏斗流失分析、用户价值RFM分析等。
  • 具体分析方法:多维度拆解分析、对比分析、假设检验、复合指标分析等。

二、数据概览

表名:tianchi_mobile_recommend_train_user
包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据。

字段 字段说明 提取说明
user_id 用户标识 抽样&字段脱敏
item_id 商品表示 字段脱敏
behavior_type 用户对商品的行为类型 1 浏览、2 收藏、3 加购、4 购买
user_geohash 用户位置的空间标识,可以为空 由经纬度通过保密的算法生成
item_category 商品分类标识 字段脱敏
time 行为事件 精确到小时

三、分析思路(多维度拆解)

本次分析的目的是提高销量,将采用对比分析、多维度拆解分析、漏斗模型、RFM模型等方法,并从以下四个维度进一步拆解,通过假设检验、复合指标分析等方式,寻找优化切入点,并提出改进建议。
在这里插入图片描述

四、数据清洗

4.1 缺失值处理
missing_count = data.isnull().sum()
missing = missing_count[missing_count>0].sort_values(ascending=False)
missing

[Out] user_geohash 8334824 dtype: int64

缺失值仅有地理位置这一项,而由于该项经过加密处理,可作为机器学习特征,而购买行为做预测,但对于实际行为分析意义不大,因此暂时不考虑该项。

4.2 一致化处理(时间类别)
# 从 time 特征中提取出 date 与 hour,方便在不改变原数据的基础上,得到利于后续分析的时间类别
data['date'] = data['time'].map(lambda x: re.compile(' ').split(x)[0])
data['hour'] = data['time'].map(lambda x: re.compile(' ').split(x)[1])

# 将数据中的 time 与 date 转换为 datetime 类别,将 hour 类别转换为数字类别
data['time'] = pd.to_datetime(data['time'])
data['date'] = pd.to_datetime(data['date'])
data['hour'] = data['hour'].astype('int64')

在这里插入图片描述

4.3 异常值处理

由于数据多为时间数据、id数据,describe() 得出结果意义不大,因此采用可视化的方式,观察指标。

# behavior_type:查看是否仅有 [1, 2, 3,
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值