一、项目背景与目的
1 背景
Airbnb是一个旅行房屋租赁社区,用户可通过网络或手机应用程序发布、搜索度假房屋租赁信息并完成在线预定程序,其社区平台在191个国家、65,000个城市为旅行者们提供数以百万计的独特入住选择,被时代周刊称为“住房中的EBay”。
Airbnb在做好了产品体验、房源美感、民宿共享服务之后,这款产品和背后的业务是否存在可以改进的地方?
2 提出问题
一款产品的发展必然伴随着不断的迭代。在AARRR模型中,第一个A(用户获取)中,提高新用户获取的数量和质量是不断监测并优化的一个工作,哪些渠道的效果更好,企业就要及时调整和增加此渠道的投入,哪些渠道的效果很差,就要及时查找原因并给出解决。
另外转化漏斗分析也是数据分析环节的重要指标,可以从宏观角度了解整个产品的业务转化情况,企业针对流失率较高的漏斗环节进行改进,可以有效促进业务发展。
针对分析的目的,提出以下三个问题:
- airbnb的目标用户群体具有什么样的特征?
- airbnb当前的推广渠道有哪些是优质的、有哪些做的还不够好且需要改进?
- 当前的转化率和流失率在哪一个环节存在问题,或者有较大的改进空间?
二、分析维度
1 分析指标
本项目将着重从用户画像、推广渠道、转化漏斗三个方面去进行分析,并探索爱彼迎在产品和业务上还有哪些可以改进的地方。
2 细分指标
2.1 用户画像
- 用户性别分布;
- 用户年龄分布;
- 用户地区分布;
- 国人去国外预定的地区;
2.2 推广渠道
- 每月新增用户;
- 不同用户端注册量;
- 不同推广渠道注册量;
- 不同推广渠道的转化率;
- 不同营销内容注册量;
- 不同营销内容的转化率;
2.3 转化漏斗
- 注册用户占比;
- 活跃用户占比;
- 下单用户占比;
- 实际支付用户占比;
- 复购用户占比;
三、数据概览
1 数据来源及描述
本次项目的数据来源于Kaggle–Airbnb New User Bookings其中train_user表中为用户数据(21w * 15),sessions表中为行为数据。(104w * 6)
2 数据集含义
2.1 train_users表
id:用户ID
date_account_created:帐户创建日期
date_first_booking:首次预订的日期
gender:性别
age:年龄
signup_method:注册方式
signup_flow:用户注册的页面
language:语言偏好
affiliate_channel:营销方式
affiliate_provider:营销来源,例如google,craigslist,其他
first_affiliate_tracked:在注册之前,用户与之交互的第一个营销广告是什么
signup_app:注册来源
first_device_type:注册时设备的类型
first_browser:注册时使用的浏览器名称
country_destination:目的地国家
******************** 基本信息
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 213451 entries, 0 to 213450
Data columns (total 16 columns):
id 213451 non-null object
date_account_created 213451 non-null object
timestamp_first_active 213451 non-null int64
date_first_booking 88908 non-null object
gender 213451 non-null object
age 125461 non-null float64
signup_method 213451 non-null object
signup_flow 213451 non-null int64
language 213451 non-null object
affiliate_channel 213451 non-null object
affiliate_provider 213451 non-null object
first_affiliate_tracked 207386 non-null object
signup_app 213451 non-null object
first_device_type 213451 non-null object
first_browser 213451 non-null object
country_destination 213451 non-null object
dtypes: float64(1), int64(2), object(13)
memory usage: 26.1+ MB
None
******************** 空值
id 0
date_account_created 0
timestamp_first_active 0
date_first_booking 124543
gender 0
age 87990
signup_method 0
signup_flow 0
language 0
affiliate_channel 0
affiliate_provider 0
first_affiliate_tracked 6065
signup_app 0
first_device_type 0
first_browser 0
country_destination 0
dtype: int64
******************** 重复值
False 213451
dtype: int64
2.2 sessions表
user_id:与users表中的“id”列连接
action:埋点名称
action_type:操作事件的类型
action_detail:操作事件的描述
device_type:此次会话所使用的设备
******************** 基本信息
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10567737 entries, 0 to 10567736
Data columns (total 6 columns):
user_id object
action object
action_type object
action_det