python数据分析项目--飞猪出行用户行为分析

本项目分析了飞猪出行2020年6月至2021年6月的用户行为数据,研究用户留存、复购率、行为分布及转化率。结果显示,6月用户留存率较低,18-21点用户行为少,点击到购买的转化率仅为3.8%,揭示了用户黏度和转化效率的问题。建议优化商品推荐,提升用户活跃度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


本项目仅用于数据分析项目练习。

1.项目背景

作为中国最受欢迎的在线旅游平台(OTP)之一,阿里巴巴集团旗下的飞猪通过提供百万规模的旅游相关产品(如机票、酒店、旅行团、等等)。凭借着平台上提供的多样性产品组合,平台沉淀了用户长期的在线行为数据。通过对用户行为数据的分析,探寻用户行为规律,找到用户感兴趣的产品,为营销活动提供参考依据。
数据来源阿里云天池:User Behavior Data from Fliggy Trip Platform for Recommendation

本项目数据为用户行为数据,筛选时间为2020/06/04-2021/06/03一年的用户行为数据,每一行表示一条用户行为。数据由由用户ID、商品ID、行为类型和时间戳组成,行为类型包括(‘clk’,‘cart’,‘fav’,‘pay’)分别表示(点击,加购,收藏,购买)。

2.分析思路

通过对数据的分析,试图解决以下几个问题:
1.留存及复购率情况,检验用户黏度
2.用户行为在时间上分布
3.各行为间转换率情况并分析

2.1 分析流程

在这里插入图片描述

2.2 分析指标

用户维度:UV,PV,人均行为数,留存率等
行为维度:漏斗分析,月度及时刻维度行为分布,复购率等
产品维度:受欢迎产品,转化率等

3.数据分析

3.1 查看数据

原始数据无列名,读取数据时,增加列名,分别为:

# 原始数据读取后取第一行为列名,headers和names重新设置列名
df = pd.read_csv(r'user_item_behavior_history.csv',header=None,names=['Userid','Itemid','Behavior','timestamp'])
列名 含义
Userid 用户id
Itemid 商铺id
Behavior 用户行为,分别为’clk’–点击,‘cart’–加购,‘fav’–收藏,‘pay’–购买
Time’stamp 时间戳

3.2 数据清洗

  1. 将时间戳转换为标准时间,筛选日期维度为2020/6/4-2021/6/3,拆分为日期b_date和时间b_time。
# 转换时间戳至标准时间格式
df['timestamp'] = pd.to_datetime((df['timestamp']),unit='s')

# 筛选日期范围为2020/06/04-2021/06/03之间的记录
s_date = datetime.datetime.strptime('20200603', '%Y%m%d').date()
v_date = datetime.datetime.strptime('20210604', '%Y%m%d').date()
df = df[(df['timestamp'].dt.date>s_date)&(df['timestamp'].dt.date<v_date)]
print('确定日期范围后数据形状:',df.shape)
# df = df.drop(df[df['b_date']>v_date].index)

# 增加日期列b_date和时间列b_time
df['b_date'] = df['timestamp'].dt.date
df['b_time'] = df['timestamp'].dt.time
df = df.drop('timestamp',axis=1)
print('增加日期及时间列:',df.head())
# 确认日期范围
max_date = df['b_date'].max()
min_date = df['b_date'].min()
print('最大及最小日期',max_date,min_date)

在这里插入图片描述

  1. 查看字段空值情况。注意此处用info时,由于记录条数太多,会导致无法显示空值情况,需增加参数verbose=True;
    查看重复值情况,并删除重复值
# 查看空值情况
print('Info:',df.info(verbose=True,show_counts=True))

# 查看有无重复值,删除重复值
print('查看重复值情况:\n',df.duplicated().value_counts())
# False    87000405
# True      2234471
df.drop_duplicates(keep='first', inplace=True)
print('数据预处理完成结果:',df.shape)

在这里插入图片描述

  1. 重新设置索引后,存入csv文件
df = df.reset_index(drop=True)
df.to_csv(r'behavior.csv',mode='w',index=None)

3.3 用户维度

3.3.1 统计用户数,行为总数,人均行为数

重新读取清洗后的csv文件,用户各指标统计

import pandas as pd

df = pd.read_csv('behavior.csv')

# 1.用户数量 UV
unique_visitor = df['Userid'].nunique()
# 2.用户行为总数
behavior_num = df['Behavior'].count()
# 3.用户平均访问量
avg_view = round(behavior_num/unique_visitor,1)

print('1.用户数量:{}\n'
      '2.用户行为总数:{}\n'
      '3.用户平均访问量:{}'.
      format(unique_visitor,
             behavior_num,
             avg_view))

在这里插入图片描述

3.3.2 每月用户留存率

根据每月用户id计算用户留存率

import pandas as pd

df = pd.read_csv('behavior.csv')
df['b_date'] = pd.to_datetime((df['b_date']))
df['month'] = df['b_date'].dt.month

def cal_retention(data):
    df_retentions = pd.DataFrame()  # 留存率为空数组
    for i in range(1,13,1):
        # 第i个月的用户id存入new_user
        new_user = set(data['Userid'].loc[data['month']==i].unique()) 
        m=i-1 # 用于控制存储位置
        for j in range(12):
            if i+j<=12:
                # 第i+j个月的用户id存入users
                users = data['Userid'].loc[data['month']==i+j].unique()
                a = 0
                # 遍历users和new_user,重复使用用户数记为a
                for user_id in users:
                    if user_id in new_user:
                        a += 1
                
                rentention_rate = a/len(new_user)
                df_retentions.loc[m,m+j
<think>嗯,用户问的是如何设计一个基于Web的旅游推荐系统的毕设进程。首先,我需要理解这个问题的各个层面。用户可能是一个计算机科学或相关专业的学生,正在规划毕业设计。他们需要的是一个结构清晰、分阶段的进程安排,帮助他们从零开始完成这个项目。 首先,我应该考虑毕设通常的时间安排,比如半年或一年,分阶段进行。然后,每个阶段需要有哪些关键任务。可能包括需求分析、技术选型、数据收集、系统设计、开发实现、测试优化、文档撰写和答辩准备等。 接下来,要确保每个阶段的任务具体且可行。比如需求分析阶段,用户可能需要做市场调研和用户访谈,明确系统的目标用户和核心功能。技术选型部分,需要考虑前端、后端、推荐算法以及数据库的选择,这时候可能需要比较不同技术的优缺点,比如用Python的Django还是Flask,推荐算法用协同过滤还是深度学习模型。 数据收集和处理是关键的一环,特别是对于推荐系统来说。可能需要爬取旅游数据,或者使用公开数据集,然后进行清洗和结构化。这里要提醒注意法律法规,比如爬虫的合规性。 系统设计阶段需要分模块,比如用户模块、推荐模块、交互模块等,每个模块的详细设计。开发实现时,分前后端和算法部分,可能需要用React或Vue做前端,Django或Spring Boot做后端,算法部分可能需要机器学习库如scikit-learn或TensorFlow。 测试和优化阶段要注重用户体验和推荐效果,可能用A/B测试,同时优化系统的响应速度。最后是文档和答辩,这部分容易被忽视,但很重要,需要规范撰写和准备演示材料。 还要考虑用户可能的深层需求,比如如何突出创新点,可能是在推荐算法上结合多种策略,或者加入实时推荐、社交功能等。同时,提醒注意时间管理和代码版本控制,这些对毕设的成功完成很关键。 总的来说,需要将整个进程分解成逻辑清晰的阶段,每个阶段有明确的任务和产出,帮助用户有条不紊地推进项目,避免后期出现重大问题。同时,提供一些实用建议,比如参考类似系统、注重数据质量、平衡复杂度等,能增加回答的价值。</think>以下是一个分阶段的基于Web的旅游推荐系统毕业设计进程建议,包含技术实现关键点和创新方向: --- ### **一、需求分析与技术调研(2-3周)** 1. **需求定义** - 市场调研:分析现有旅游平台(如TripAdvisor、马蜂窝)功能 - 用户访谈:明确目标用户群体(如背包客/家庭游/商务出行- 核心功能规划:$$ \text{推荐系统} = f(\text{用户画像}, \text{景点特征}, \text{上下文因素}) $$ 2. **技术选型** - 前端框架:React/Vue.js(可视化交互) - 后端框架:Django/Spring Boot(建议用Python便于算法实现) - 推荐算法:协同过滤/内容推荐/混合模型 - 数据库:MySQL(用户数据)+ Redis(缓存)+ Neo4j(景点关系图谱) --- ### **二、数据采集与处理(3-4周)** 1. **数据来源** - 爬虫获取:景点数据(携程/飞猪)+ 用户评论(注意合规性) - 开放数据集:Kaggle旅游数据集 - 模拟数据生成(若真实数据不足) 2. **数据处理** - 数据清洗:$$ \text{去噪} = \text{正则表达式} + \text{停用词过滤} $$ - 特征工程: ```python # 示例:景点特征向量化 attractions = { 'tags': TF-IDF(text), 'coordinates': GeoHash(lat, lng), 'price': MinMaxScaler() } ``` --- ### **三、系统设计与算法开发(6-8周)** 1. **架构设计** ``` [用户端] --HTTP--> [推荐引擎] <---> [数据库] ↑ [机器学习模型] ``` 2. **推荐算法实现** - 基础算法: - 协同过滤:$$ \hat{r}_{ui} = \bar{r}_u + \frac{\sum_{v \in N(u)} w_{uv}(r_{vi} - \bar{r}_v)}{\sum_{v \in N(u)} |w_{uv}|} $$ - LDA主题模型(处理文本评论) - 进阶方向: - 时空约束推荐:$$ \max \sum \frac{\alpha}{距离} + \frac{\beta}{评分} $$ - 深度学习:使用Transformer处理用户行为序列 --- ### **四、系统开发与测试(4-6周)** 1. **模块开发** - 用户模块:注册/登录/历史行为记录 - 推荐模块: - 实时推荐(Flask异步API) - 离线推荐(每日批量计算) - 交互模块:地图可视化(Leaflet.js)+ 行程规划器 2. **测试重点** - 推荐准确率:$$ Precision@K = \frac{\text{命中数}}{K} $$ - 响应时间:压力测试(JMeter) - 用户体验:A/B测试界面设计 --- ### **五、文档与答辩准备(2-3周)** 1. **文档撰写** - 系统架构图(使用PlantUML) - 算法对比实验(精确率/召回率曲线) - 创新点说明(如结合天气API动态调整推荐) 2. **演示系统构建** - Docker容器化部署 - 制作系统演示视频(重点展示推荐逻辑) --- ### **创新方向建议** 1. 多模态推荐:结合图片分析(CNN提取景点图像特征) 2. 可解释性推荐:生成自然语言解释(如"推荐故宫因为您喜欢历史") 3. 可持续旅游推荐:加入碳排放计算因子 4. AR集成:通过手机摄像头识别场景推荐周边景点 --- ### **注意事项** 1. 使用Git进行版本控制(建议每天commit) 2. 算法模块与业务逻辑解耦 3. 注重数据隐私保护(GDPR合规) 4. 准备备选方案(如公开API失效时的应急策略) 建议每周记录开发日志,定期与导师同步进度。可参考《推荐系统实践》(项亮著)获取算法实现细节,使用Postman管理API接口测试。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值