python数据分析项目--飞猪出行用户行为分析

最新推荐文章于 2024-01-06 23:51:15 发布

ZhX_DA

最新推荐文章于 2024-01-06 23:51:15 发布

阅读量3.2k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_41521236/article/details/123551392

版权

本项目分析了飞猪出行2020年6月至2021年6月的用户行为数据，研究用户留存、复购率、行为分布及转化率。结果显示，6月用户留存率较低，18-21点用户行为少，点击到购买的转化率仅为3.8%，揭示了用户黏度和转化效率的问题。建议优化商品推荐，提升用户活跃度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本项目仅用于数据分析项目练习。

1.项目背景

作为中国最受欢迎的在线旅游平台（OTP）之一，阿里巴巴集团旗下的飞猪通过提供百万规模的旅游相关产品（如机票、酒店、旅行团、等等）。凭借着平台上提供的多样性产品组合，平台沉淀了用户长期的在线行为数据。通过对用户行为数据的分析，探寻用户行为规律，找到用户感兴趣的产品，为营销活动提供参考依据。
数据来源阿里云天池：User Behavior Data from Fliggy Trip Platform for Recommendation

本项目数据为用户行为数据，筛选时间为2020/06/04-2021/06/03一年的用户行为数据，每一行表示一条用户行为。数据由由用户ID、商品ID、行为类型和时间戳组成，行为类型包括（‘clk’,‘cart’,‘fav’,‘pay’）分别表示（点击，加购，收藏，购买）。

2.分析思路

通过对数据的分析，试图解决以下几个问题：
1.留存及复购率情况，检验用户黏度
2.用户行为在时间上分布
3.各行为间转换率情况并分析

2.1 分析流程

在这里插入图片描述

2.2 分析指标

用户维度：UV,PV,人均行为数，留存率等
行为维度：漏斗分析，月度及时刻维度行为分布，复购率等
产品维度：受欢迎产品，转化率等

3.数据分析

3.1 查看数据

原始数据无列名，读取数据时，增加列名，分别为：

# 原始数据读取后取第一行为列名，headers和names重新设置列名
df = pd.read_csv(r'user_item_behavior_history.csv',header=None,names=['Userid','Itemid','Behavior','timestamp'])

列名	含义
Userid	用户id
Itemid	商铺id
Behavior	用户行为，分别为’clk’–点击，‘cart’–加购，‘fav’–收藏，‘pay’–购买
Time’stamp	时间戳

3.2 数据清洗

将时间戳转换为标准时间，筛选日期维度为2020/6/4-2021/6/3，拆分为日期b_date和时间b_time。

# 转换时间戳至标准时间格式
df['timestamp'] = pd.to_datetime((df['timestamp']),unit='s')

# 筛选日期范围为2020/06/04-2021/06/03之间的记录
s_date = datetime.datetime.strptime('20200603', '%Y%m%d').date()
v_date = datetime.datetime.strptime('20210604', '%Y%m%d').date()
df = df[(df['timestamp'].dt.date>s_date)&(df['timestamp'].dt.date<v_date)]
print('确定日期范围后数据形状：',df.shape)
# df = df.drop(df[df['b_date']>v_date].index)

# 增加日期列b_date和时间列b_time
df['b_date'] = df['timestamp'].dt.date
df['b_time'] = df['timestamp'].dt.time
df = df.drop('timestamp',axis=1)
print('增加日期及时间列：',df.head())
# 确认日期范围
max_date = df['b_date'].max()
min_date = df['b_date'].min()
print('最大及最小日期',max_date,min_date)

在这里插入图片描述

查看字段空值情况。注意此处用info时，由于记录条数太多，会导致无法显示空值情况，需增加参数verbose=True；
查看重复值情况，并删除重复值

# 查看空值情况
print('Info：',df.info(verbose=True,show_counts=True))

# 查看有无重复值,删除重复值
print('查看重复值情况：\n',df.duplicated().value_counts())
# False    87000405
# True      2234471
df.drop_duplicates(keep='first', inplace=True)
print('数据预处理完成结果：',df.shape)

在这里插入图片描述

重新设置索引后，存入csv文件

df = df.reset_index(drop=True)
df.to_csv(r'behavior.csv',mode='w',index=None)

3.3 用户维度

3.3.1 统计用户数，行为总数，人均行为数

重新读取清洗后的csv文件，用户各指标统计

import pandas as pd

df = pd.read_csv('behavior.csv')

# 1.用户数量 UV
unique_visitor = df['Userid'].nunique()
# 2.用户行为总数
behavior_num = df['Behavior'].count()
# 3.用户平均访问量
avg_view = round(behavior_num/unique_visitor,1)

print('1.用户数量：{}\n'
      '2.用户行为总数：{}\n'
      '3.用户平均访问量:{}'.
      format(unique_visitor,
             behavior_num,
             avg_view))

在这里插入图片描述

3.3.2 每月用户留存率

根据每月用户id计算用户留存率

import pandas as pd

df = pd.read_csv('behavior.csv')
df['b_date'] = pd.to_datetime((df['b_date']))
df['month'] = df['b_date'].dt.month

def cal_retention(data):
    df_retentions = pd.DataFrame()  # 留存率为空数组
    for i in range(1,13,1):
        # 第i个月的用户id存入new_user
        new_user = set(data['Userid'].loc[data['month']==i].unique()) 
        m=i-1 # 用于控制存储位置
        for j in range(12):
            if i+j<=12:
                # 第i+j个月的用户id存入users
                users = data['Userid'].loc[data['month']==i+j].unique()
                a = 0
                # 遍历users和new_user，重复使用用户数记为a
                for user_id in users:
                    if user_id in new_user:
                        a += 1
                
                rentention_rate = a/len(new_user)
                df_retentions.loc[m,m+j

最低0.47元/天解锁文章