纽约poi数据集_2019年 Airbnb 纽约订单数据集 EDA

本文对2019年Airbnb纽约订单数据集进行深入分析,涵盖数据来源、数据简介及数据分析思路。通过EDA探讨了Category Features的计数、Number Features的分布和相互关系,构建预测模型并进行预处理,揭示了纽约各区订单特点、房源类型分布以及价格、可用性等关键信息。
摘要由CSDN通过智能技术生成

46db32929a054a8fb06d9b4857eab6d8.png

数据集来源

数据来源于 Kaggle ,以下为链接

2019年Airbnb纽约订单数据集

数据集简介

从2008年起人们就开始使用Airbnb(爱彼迎)来探索独一无二而又个性化的旅途可能。这个数据集就是描述2019年Airbnb在纽约的订单活动与数据指标。

数据分析思路

由于数据集中的“calculated_host_listings_count”可列为目标变量,以其他变量为自变量进行数据建模、机器学习对每个host 的 list 次数进行预测。

EDA部分,可以观察:

  • Category Features 的计数情况
  • 不同 Number Features 在不同 Category Features 中的分布情况
  • Number Features 之间的相互关系等

数据分析

导入、观察数据集

import datetime
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

path = ('AB_NYC_2019.csv')
airbnb = pd.read_csv(path)
airbnb.head()

8993b0672b2ed8c4615ebc5112d7aae0.png
airbnb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48895 entries, 0 to 48894
Data columns (total 16 columns):
id                                48895 non-null int64
name                              48879 non-null object
host_id                           48895 non-null int64
host_name                         48874 non-null object
neighbourhood_group               48895 non-null object
neighbourhood                     48895 non-null object
latitude                          48895 non-null float64
longitude                         48895 non-null float64
room_type                         48895 non-null object
price                             48895 non-null int64
minimum_nights                    48895 non-null int64
number_of_reviews                 48895 non-null int64
last_review                       38843 non-null object
reviews_per_month                 38843 non-null float64
calculated_host_listings_count    48895 non-null int64
availability_365                  48895 non-null int64
dtypes: float64(3), int64(7), object(6)
memory usage: 6.0+ MB

我们可以看到,整个数据集是以host为统计维度,记录每一次host进行租住时的信息。 字段大体可以分数值型与类别型。Airbnb数据集共包含16个字段,10个数值型与6个类别型。现在我们简单进行分类:

数值型:

  • id
  • host_id
  • latitude
  • longitude
  • price
  • minimum_nights
  • number_of_reviews - reviews_per_month
  • calculated_host_listings_count - availability_365

类别型:

  • name
  • host_name
  • neighbourhood_group
  • neighbourhood
  • room_type
  • last_review
pd.DataFrame(airbnb.isnull().sum(), columns = ['Count Null'])

2bf629ecbe7e9d9bf35d1f8d87bc5beb.png

清洗数据集

数据集中,'last_review'和源自'last_review'的计算字段'reviews_per_month'有较多缺失值,考虑到字段含义,'reviews_per_month'空值可以填充为0。'last_review'可以转换为"距19/12/31的时段长度",空缺值可以设置为100000天(异常值)。

由于字段'id'、'host_id'、'host_name'属于独立随机变量,可以清洗掉。

def to_today(date1):
    date2= datetime.datetime.strptime('2019-12-31',"%Y-%m-
美国著名共享民宿网站 Airbnb 开放的民宿信息和住客评价数据,包括民宿的位置、房间、配置、价格、住客的评分和自然语言评论等。目前Airbnb开放数据的城市如下表所示。 城市名称 省份和地区 所在国家 Amsterdam North Holland The Netherlands Antwerp Flemish Region Belgium Asheville North Carolina United States Athens Attica Greece Austin Texas United States Barcelona Catalonia Spain Berlin Berlin Germany Boston Massachusetts United States Brussels Brussels Belgium Chicago Illinois United States Copenhagen Hovedstaden Denmark Denver Colorado United States Dublin Leinster Ireland Edinburgh Scotland United Kingdom Geneva Geneva Switzerland Hong Kong Hong Kong China London England United Kingdom Los Angeles California United States Madrid Comunidad de Madrid Spain Mallorca Islas Baleares Spain Manchester England United Kingdom Melbourne Victoria Australia Montreal Quebec Canada Nashville Tennessee United States New Orleans Louisiana United States New York City New York United States Northern Rivers New South Wales Australia Oakland California United States Paris France France Portland Oregon United States Quebec City Quebec Canada San Diego California United States San Francisco California United States Santa Cruz County California United States Seattle Washington United States Sydney New South Wales Australia Toronto Ontario Canada Trentino Trentino-Alto Adige_Südtirol Italy Vancouver British Columbia Canada Venice Veneto Italy Victoria British Columbia Canada Vienna Vienna Austria Washington D.C.District of Columbia United States
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值