airbnb数据分析报告
数据集来源:https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data
一、airbnb背景与分析
1.1 airbnb背景介绍
Airbnb(AirBed and Breakfast),爱彼迎,是一家联系旅游人士和家有空房出租房主的服务性网站,它可以为用户提供多样的住宿信息.Airbnb成立于2008年8月,总部在美国加州旧金山市,airbnb是一个旅行房屋租赁社区,用户可以通过网络或手机应用程序发布、搜索度假房屋租赁信息并完成在线预定程序。
1.2 提出分析问题
听起来爱彼迎是对酒店业务的颠覆,能将空闲的资源利用起来,但是人们对于这种资源利用是否赞同并愿意参与,在这个人与人之间逐渐缺乏信任的时代,如何让两个陌生人完成配对或者让两个群体建立信任关系,是推进爱彼迎产品的关键,对应到用户周期模型AARRR就是第一个A(用户获取Acquisition),提高新用户获取的数量和质量是不断监测并优化的工作,哪些渠道获取用户的效果更好,企业就要及时调整和增加此渠道的投入,对于较差的渠道方案,就要查找原因并改正解决。
另外转化漏斗分析也是数据分析环节的重要指标,可以从宏观角度了解整个产品业务转换情况,企业针对流失率较高的漏斗环节进行改进,可以有效促进业务发展。
通过分析的目的,提出以下三个问题:
1.airbnb的目标用户群体具有什么样的特征?
2.air当前的推广渠道有哪些是优质的,有哪些是做的不够好的且需要改进的?
3.当前转化率和流失率中哪里哪一个环节存在问题,或者有较大的改进空间?
二、分析维度
2.1 根据问题设立分析思维和分析指标
数据分析指标: 用户画像分析、推广渠道分析、转化漏斗分析
1、用户画像分析
什么是用户画像?简单地说就是了解用户,比如三大电商品牌:淘宝、京东、拼多多他们最主要的用户群体是不一样的,他们的年龄、性别、城市、收入、购物类型等等都是不一样的,那么怎么针对这些不同用户去营销产品生产产品?一句经典的话说:你要生产能卖得出去的产品,而不是卖能生产的产品,只有了解了用户需求,才能有的放矢。
在真正的工作中, 用户画像分析是一个重要的数据分析手段去帮助产品功能迭代, 帮助产品运营做用户增长。总的来说, 用户画像分析就是基于大量的数据, 建立用户的属性标签体系, 同时利用这种属性标签体系去描述用户。
a、用户性别的分布特征;
b、用户年龄的分布特征;
c、用户地区的分布分布;
d、中国地区去国外预定的地区占比;
2、推广渠道分析
不同的推广渠道会产生不同的效果,好的推广渠道当然是有利于用户增长和业务增长的。
渠道分析主要包括:每月新增用户、每月不同用户端的注册量以及注册方式、不同推广渠道的注册量、不同营销内容的注册量、不同推广渠道的转化率、不同营销内容的转化率
3、转化漏斗分析
漏斗分析是一套流程式数据分析,它能够反映用户行为状态以及从起点到终点各阶段用户转化率的重要分析模型。漏斗分析已经广泛应用于网站用户行为分析和APP用户行为分析的流量监控、产品目标转化等日常数据运营和数据分析的工作中。
漏斗分析最常用的是转化率和流失率两个互补型指标。
转化漏斗分析包括:注册用户占比、活跃用户(非僵尸用户)占比、下单用户占比、实际支付用户占比、复购用户占比
三、数据清洗
3.1 数据表的结构
本文主要利用的是train_users_2.csv和sessions.csv两个表,首先看看这两个表的结构:
train_users_2.csv
id:用户id
date_account_created:帐户创建日期
timestamp_first_active:timestamp of the first activity, note that it can be earlier than date_account_created or date_first_booking because a user can search before signing up 第一次活动的时间戳,它可能比创建账户时间更早,因为第一次一个用户在注册之前会搜索
date_first_booking:首次预订的日期
gender:性别
age:年龄
signup_method:注册方式
signup_flow:the page a user came to signup up from 用户注册的页面
language:语言偏好
affiliate_channel:what kind of paid marketing 营销方式
affiliate_provider:where the marketing is e.g. google, craigslist, other 营销来源,例如 google,craigslist,其他
first_affiliate_tracked:whats the first marketing the user interacted with before the signing up 在注册之前,用户与之交互的第一个营销广告是什么
signup_app:注册来源
first_device_type:注册时设备的类型
first_browser:注册时使用的浏览器名称
country_destination: this is the target variable you are to predict 目的地国家(需要预测的!)
sessions.csv
user_id:与users表中的“id”列连接
action:操作名称
action_type:操作事件的类型
action_detail:操作事件的描述
device_type:此次会话所使用的设备
secs_elapsed: 猜测是会话持续时间
还有另外几张表:
countries.csv - summary statistics of destination countries in this dataset and their locations目标城市和他们的地点
age_gender_bkts.csv - summary statistics of users’ age group, gender, country of destination 用户的年龄组、性别、城市和目的地
sample_submission.csv - correct format for submitting your predictions 提交预测的格式。
3.2 数据预处理
1. 重复值处理
对于train_users_2表,其主键应该是用户id,需要确保其没有重复值,通过查询,确实没有重复值。
select id,count(id) as