python数据分析项目--飞猪出行用户行为分析
本项目仅用于数据分析项目练习。
1.项目背景
作为中国最受欢迎的在线旅游平台(OTP)之一,阿里巴巴集团旗下的飞猪通过提供百万规模的旅游相关产品(如机票、酒店、旅行团、等等)。凭借着平台上提供的多样性产品组合,平台沉淀了用户长期的在线行为数据。通过对用户行为数据的分析,探寻用户行为规律,找到用户感兴趣的产品,为营销活动提供参考依据。
数据来源阿里云天池:User Behavior Data from Fliggy Trip Platform for Recommendation
本项目数据为用户行为数据,筛选时间为2020/06/04-2021/06/03一年的用户行为数据,每一行表示一条用户行为。数据由由用户ID、商品ID、行为类型和时间戳组成,行为类型包括(‘clk’,‘cart’,‘fav’,‘pay’)分别表示(点击,加购,收藏,购买)。
2.分析思路
通过对数据的分析,试图解决以下几个问题:
1.留存及复购率情况,检验用户黏度
2.用户行为在时间上分布
3.各行为间转换率情况并分析
2.1 分析流程
2.2 分析指标
用户维度:UV,PV,人均行为数,留存率等
行为维度:漏斗分析,月度及时刻维度行为分布,复购率等
产品维度:受欢迎产品,转化率等
3.数据分析
3.1 查看数据
原始数据无列名,读取数据时,增加列名,分别为:
# 原始数据读取后取第一行为列名,headers和names重新设置列名
df = pd.read_csv(r'user_item_behavior_history.csv',header=None,names=['Userid','Itemid','Behavior','timestamp'])
列名 | 含义 |
---|---|
Userid | 用户id |
Itemid | 商铺id |
Behavior | 用户行为,分别为’clk’–点击,‘cart’–加购,‘fav’–收藏,‘pay’–购买 |
Time’stamp | 时间戳 |
3.2 数据清洗
- 将时间戳转换为标准时间,筛选日期维度为2020/6/4-2021/6/3,拆分为日期b_date和时间b_time。
# 转换时间戳至标准时间格式
df['timestamp'] = pd.to_datetime((df['timestamp']),unit='s')
# 筛选日期范围为2020/06/04-2021/06/03之间的记录
s_date = datetime.datetime.strptime('20200603', '%Y%m%d').date()
v_date = datetime.datetime.strptime('20210604', '%Y%m%d').date()
df = df[(df['timestamp'].dt.date>s_date)&(df['timestamp'].dt.date<v_date)]
print('确定日期范围后数据形状:',df.shape)
# df = df.drop(df[df['b_date']>v_date].index)
# 增加日期列b_date和时间列b_time
df['b_date'] = df['timestamp'].dt.date
df['b_time'] = df['timestamp'].dt.time
df = df.drop('timestamp',axis=1)
print('增加日期及时间列:',df.head())
# 确认日期范围
max_date = df['b_date'].max()
min_date = df['b_date'].min()
print('最大及最小日期',max_date,min_date)
- 查看字段空值情况。注意此处用info时,由于记录条数太多,会导致无法显示空值情况,需增加参数verbose=True;
查看重复值情况,并删除重复值
# 查看空值情况
print('Info:',df.info(verbose=True,show_counts=True))
# 查看有无重复值,删除重复值
print('查看重复值情况:\n',df.duplicated().value_counts())
# False 87000405
# True 2234471
df.drop_duplicates(keep='first', inplace=True)
print('数据预处理完成结果:',df.shape)
- 重新设置索引后,存入csv文件
df = df.reset_index(drop=True)
df.to_csv(r'behavior.csv',mode='w',index=None)
3.3 用户维度
3.3.1 统计用户数,行为总数,人均行为数
重新读取清洗后的csv文件,用户各指标统计
import pandas as pd
df = pd.read_csv('behavior.csv')
# 1.用户数量 UV
unique_visitor = df['Userid'].nunique()
# 2.用户行为总数
behavior_num = df['Behavior'].count()
# 3.用户平均访问量
avg_view = round(behavior_num/unique_visitor,1)
print('1.用户数量:{}\n'
'2.用户行为总数:{}\n'
'3.用户平均访问量:{}'.
format(unique_visitor,
behavior_num,
avg_view))
3.3.2 每月用户留存率
根据每月用户id计算用户留存率
import pandas as pd
df = pd.read_csv('behavior.csv')
df['b_date'] = pd.to_datetime((df['b_date']))
df['month'] = df['b_date'].dt.month
def cal_retention(data):
df_retentions = pd.DataFrame() # 留存率为空数组
for i in range(1,13,1):
# 第i个月的用户id存入new_user
new_user = set(data['Userid'].loc[data['month']==i].unique())
m=i-1 # 用于控制存储位置
for j in range(12):
if i+j<=12:
# 第i+j个月的用户id存入users
users = data['Userid'].loc[data['month']==i+j].unique()
a = 0
# 遍历users和new_user,重复使用用户数记为a
for user_id in users:
if user_id in new_user:
a += 1
rentention_rate = a/len(new_user)
df_retentions.loc[m,m+j