新手数据分析项目(二)— New York City Airbnb Open Data

本次实践项目选自kaggle数据集New York City Airbnb Open Data,Airbnb是全球的民宿短租公寓预订平台,这份数据集也正是来自于Airbnb公开的数据。数据集下载链接如下。

New York City Airbnb Open Data​www.kaggle.com/datasets/dgomonov/new-york-city-airbnb-open-data正在上传…重新上传取消

#导入需要用到的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.image as mping
%matplotlib inline
import seaborn as sns

首先导入数据,拿到数据后的第一件事就是查看头部信息

airbnb = pd.read_csv("E:/Kaggle/AB_NYC_2019.csv")
airbnb.head()

对图中数据进行解读,其中不易理解的列:neighbourhood_group:行政区;neighbourhood :社区;latitude:纬度;longitude:经度;number_of_revivews:评论数量;minimum_night:最少租住天数

# 查看数据总数
len(airbnb)

# 查看每列的数据类型
airbnb.dtypes

# 查看缺失值
airbnb.isnull().sum()

从缺失值这里可以看出,其中last_review与reviews_per_month缺失的厉害,但是这两列中,缺失值就代表着0,比如最后一次评论缺失,就代表着没有人评论,每月平均评论缺失,也代表着没有人评论,因此接下来我们将对此展开数据清洗。首先删除不需要的列。

airbnb.drop(['id','host_name','last_review'], axis=1, inplace=True) # 在drop函数中,axis=1代表列,inplace=True表示删除后原dataframe也会改变
# 检测是否删除成功
airbnb.head(3)

美国著名共享民宿网站 Airbnb 开放的民宿信息和住客评价数据,包括民宿的位置、房间、配置、价格、住客的评分和自然语言评论等。目前Airbnb开放数据的城市如下表所示。 城市名称 省份和地区 所在国家 Amsterdam North Holland The Netherlands Antwerp Flemish Region Belgium Asheville North Carolina United States Athens Attica Greece Austin Texas United States Barcelona Catalonia Spain Berlin Berlin Germany Boston Massachusetts United States Brussels Brussels Belgium Chicago Illinois United States Copenhagen Hovedstaden Denmark Denver Colorado United States Dublin Leinster Ireland Edinburgh Scotland United Kingdom Geneva Geneva Switzerland Hong Kong Hong Kong China London England United Kingdom Los Angeles California United States Madrid Comunidad de Madrid Spain Mallorca Islas Baleares Spain Manchester England United Kingdom Melbourne Victoria Australia Montreal Quebec Canada Nashville Tennessee United States New Orleans Louisiana United States New York City New York United States Northern Rivers New South Wales Australia Oakland California United States Paris France France Portland Oregon United States Quebec City Quebec Canada San Diego California United States San Francisco California United States Santa Cruz County California United States Seattle Washington United States Sydney New South Wales Australia Toronto Ontario Canada Trentino Trentino-Alto Adige_Südtirol Italy Vancouver British Columbia Canada Venice Veneto Italy Victoria British Columbia Canada Vienna Vienna Austria Washington D.C.District of Columbia United States
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值