简单的python爱彼迎数据分析
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
导入需要的库
1.calender数据集分析
calendar = pd.read_csv(r'C:\Users\12435\Desktop\shujufenxi\数分清华\aibiying\calendar_detail.csv')
calendar.head()
导入数据集并查看
calendar.info()
首先将价格转换为为浮点数
calendar['price']=calendar['price'].str.replace(r'[$,]','',regex=True).astype(np.float32)
calendar['adjusted_price'] = calendar['adjusted_price'].str.replace(r'[$,]','',regex=True).astype(np.float32)
#将日期转换为日期格式
calendar.date=pd.to_datetime(calendar.date,format='%Y-%m-%d')
#添加月份和星期
calendar['month']=calendar.date.dt.month
calendar['weekday'] = calendar.date.dt.weekday+1
calendar.head()
#月份与价格的关系
month_price = calendar.groupby('month')['price'].mean()
sns.barplot(month_price.index,month_price.values)
plt.ylim(600,700)
可以看到3.4月淡季价格较低,78月暑假10月国庆价格较高.
#星期与价格的关系
weekday_price = calendar.groupby('weekday')['price'].mean()
sns.barplot(weekday_price.index,weekday_price.values)
plt.ylim(600,700)
周五周六价格较高.
分析一下价格占比
sns.distplot(calendar[calendar['price']<1000]['price'])
排除一些异常值后,可以看出条形图呈右偏分布.大部分房屋价格都在200-400元左右
2.listings数据集分析
listings = pd.read_csv(r'C:\Users\12435\Desktop\shujufenxi\数分清华\aibiying\listings_detail.csv')
listings.head()
#数据集特征较多,有106个,通过将列名转换为列表查看完整特征.寻找感兴趣的特征进行处理.
listings.columns.to_list()
修改金额列的数据类型
listings['price'] = listings['price'].str.replace(r'[$,]','',regex=True).astype(np.float32)
listings['cleaning_fee'] = listings['cleaning_fee'].str.replace(r'[$,]','',regex=True).astype(np.float32)
listings['cleaning_fee']