python数据分析项目--飞猪出行用户行为分析


本项目仅用于数据分析项目练习。

1.项目背景

作为中国最受欢迎的在线旅游平台(OTP)之一,阿里巴巴集团旗下的飞猪通过提供百万规模的旅游相关产品(如机票、酒店、旅行团、等等)。凭借着平台上提供的多样性产品组合,平台沉淀了用户长期的在线行为数据。通过对用户行为数据的分析,探寻用户行为规律,找到用户感兴趣的产品,为营销活动提供参考依据。
数据来源阿里云天池:User Behavior Data from Fliggy Trip Platform for Recommendation

本项目数据为用户行为数据,筛选时间为2020/06/04-2021/06/03一年的用户行为数据,每一行表示一条用户行为。数据由由用户ID、商品ID、行为类型和时间戳组成,行为类型包括(‘clk’,‘cart’,‘fav’,‘pay’)分别表示(点击,加购,收藏,购买)。

2.分析思路

通过对数据的分析,试图解决以下几个问题:
1.留存及复购率情况,检验用户黏度
2.用户行为在时间上分布
3.各行为间转换率情况并分析

2.1 分析流程

在这里插入图片描述

2.2 分析指标

用户维度:UV,PV,人均行为数,留存率等
行为维度:漏斗分析,月度及时刻维度行为分布,复购率等
产品维度:受欢迎产品,转化率等

3.数据分析

3.1 查看数据

原始数据无列名,读取数据时,增加列名,分别为:

# 原始数据读取后取第一行为列名,headers和names重新设置列名
df = pd.read_csv(r'user_item_behavior_history.csv',header=None,names=['Userid','Itemid','Behavior','timestamp'])
列名 含义
Userid 用户id
Itemid 商铺id
Behavior 用户行为,分别为’clk’–点击,‘cart’–加购,‘fav’–收藏,‘pay’–购买
Time’stamp 时间戳

3.2 数据清洗

  1. 将时间戳转换为标准时间,筛选日期维度为2020/6/4-2021/6/3,拆分为日期b_date和时间b_time。
# 转换时间戳至标准时间格式
df['timestamp'] = pd.to_datetime((df['timestamp']),unit='s')

# 筛选日期范围为2020/06/04-2021/06/03之间的记录
s_date = datetime.datetime.strptime('20200603', '%Y%m%d').date()
v_date = datetime.datetime.strptime('20210604', '%Y%m%d').date()
df = df[(df['timestamp'].dt.date>s_date)&(df['timestamp'].dt.date<v_date)]
print('确定日期范围后数据形状:',df.shape)
# df = df.drop(df[df['b_date']>v_date].index)

# 增加日期列b_date和时间列b_time
df['b_date'] = df['timestamp'].dt.date
df['b_time'] = df['timestamp'].dt.time
df = df.drop('timestamp',axis=1)
print('增加日期及时间列:',df.head())
# 确认日期范围
max_date = df['b_date'].max()
min_date = df['b_date'].min()
print('最大及最小日期',max_date,min_date)

在这里插入图片描述

  1. 查看字段空值情况。注意此处用info时,由于记录条数太多,会导致无法显示空值情况,需增加参数verbose=True;
    查看重复值情况,并删除重复值
# 查看空值情况
print('Info:',df.info(verbose=True,show_counts=True))

# 查看有无重复值,删除重复值
print('查看重复值情况:\n',df.duplicated().value_counts())
# False    87000405
# True      2234471
df.drop_duplicates(keep='first', inplace=True)
print('数据预处理完成结果:',df.shape)

在这里插入图片描述

  1. 重新设置索引后,存入csv文件
df = df.reset_index(drop=True)
df.to_csv(r'behavior.csv',mode='w',index=None)

3.3 用户维度

3.3.1 统计用户数,行为总数,人均行为数

重新读取清洗后的csv文件,用户各指标统计

import pandas as pd

df = pd.read_csv('behavior.csv')

# 1.用户数量 UV
unique_visitor = df['Userid'].nunique()
# 2.用户行为总数
behavior_num = df['Behavior'].count()
# 3.用户平均访问量
avg_view = round(behavior_num/unique_visitor,1)

print('1.用户数量:{}\n'
      '2.用户行为总数:{}\n'
      '3.用户平均访问量:{}'.
      format(unique_visitor,
             behavior_num,
             avg_view))

在这里插入图片描述

3.3.2 每月用户留存率

根据每月用户id计算用户留存率

import pandas as pd

df = pd.read_csv('behavior.csv')
df['b_date'] = pd.to_datetime((df['b_date']))
df['month'] = df['b_date'].dt.month

def cal_retention(data):
    df_retentions = pd.DataFrame()  # 留存率为空数组
    for i in range(1,13,1):
        # 第i个月的用户id存入new_user
        new_user = set(data['Userid'].loc[data['month']==i].unique()) 
        m=i-1 # 用于控制存储位置
        for j in range(12):
            if i+j<=12:
                # 第i+j个月的用户id存入users
                users = data['Userid'].loc[data['month']==i+j].unique()
                a = 0
                # 遍历users和new_user,重复使用用户数记为a
                for user_id in users:
                    if user_id in new_user:
                        a += 1
                
                rentention_rate = a/len(new_user)
                df_retentio
  • 0
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值