目录
一、项目简介
Kaggle项目:Hotel booking demand
数据为一个城市酒店和一个度假酒店的预订信息,包括预订时间、停留时间,成人/儿童/婴儿人数以及可用停车位数量等信息。
目标
从以下几个方面对数据进行探索性数据分析:
- 分析整体预定情况
- 用户行为特征
- 取消订单特征
参数定义
参数 | 意义 |
---|---|
hotel | 酒店类型 |
is_canceled | 是否取消,1是取消 |
lead_time | 预定时间和入住时间间隔 |
arrival_date_year | 到达年时间 |
arrival_date_month | 到达月 |
arrival_date_week_number | 达到周 |
arrival_date_day_of_month | 到达日 |
stays_in_weekend_nights | 预定或入住的周末的晚上数目,周六和周日 |
stays_in_week_nights | 预定或入住的工作日晚上数目 |
adults | 成人数量 |
children | 儿童数量 |
babies | 宝宝数量 |
meal | 订餐情况:Undefined/SC 未预定;BB-床和早餐;HB-早餐和另一餐,多是晚餐;FB-一日三餐 |
country | 国家地区,ISO 3155–3:2013 format |
market_segment | 市场细分,有旅行社、旅游经营者等 |
distribution_channel | 预定的渠道 |
is_repeated_guest | 是否老客户 |
previous_cancellations | 过往预定取消情况 |
previous_bookings_not_canceled | 过往预定 |
reserved_room_type | 保留房间类型 |
assigned_room_type | 实际分配房间类型, |
booking_changes | 自预定到入住或取消中间的修改次数 |
deposit_type | 订金类型 |
agent | 旅行社ID |
company | 预定或支付房费的公司 |
days_in_waiting_list | 确认订单前在等候列表中的天数 |
customer_type | 客户类型:合同、团体、临时、临时组织 |
adr | 日均房价格 |
required_car_parking_spaces | 需要的停车位 |
total_of_special_requests | 特殊要求数 |
reservation_status | 预定状态:取消、离店、消失 |
reservation_status_date | 状态更新时间 |
二、数据清洗
查看数据整情况
print(a.info())
print(a.isnull().sum())
print(a.describe()) #结果较多,就不放了
#结果:
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 hotel 119390 non-null object
1 is_canceled 119390 non-null int64
2 lead_time 119390 non-null int64
3 arrival_date_year 119390 non-null int64
4 arrival_date_month 119390 non-null object
5 arrival_date_week_number 119390 non-null int64
6 arrival_date_day_of_month 119390 non-null int64
7 stays_in_weekend_nights 119390 non-null int64
8 stays_in_week_nights 119390 non-null int64
9 adults 119390 non-null int64
10 children 119386 non-null float64
11 babies 119390 non-null int64
12 meal 119390 non-null object
13 country 118902 non-null object
14 market_segment 119390 non-null object
15 distribution_channel 119390 non-null object
16 is_repeated_guest 119390 non-null int64
17 previous_cancellations 119390 non-null int64
18 previous_bookings_not_canceled 119390 non-null int64
19 reserved_room_type 119390 non-null object
20 assigned_room_type 119390 non-null object
21 booking_changes 119390 non-null int64
22 deposit_type 119390 non-null object
23 agent 103050 non-null float64
24 company 6797 non-null float64
25 days_in_waiting_list 119390 non-null int64
26 customer_type 119390 non-null object
27 adr 119390 non-null float64
28 required_car_parking_spaces 119390 non-null int64
29 total_of_special_requests 119390 non-null int64
30 reservation_status 119390 non-null object
31 reservation_status_date 119390 non-null object
dtypes: float64(4), int64(16),