目的
使用scrapy框架爬取租赁信息,对数据进行处理利用python中的seaborn,matplotlib库进行可视化分析,最后查看昌平区待租量排前十小区对应地铁站点,及其平均租房价格。
1.爬虫
使用scrapy框架爬取beike租房信息,将获取的数据存入到MySQL中,其中使用正则匹配出小区的经纬度信息,用于地图可视化分布;
一共获取了26000多条数据,获取时间为19年8月份,获取字段主要有,区县,商圈,小区,居室,面积等,下图为处理后的字段
2.可视化分析
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#中文正常显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
#读取数据
df = pd.read_excel(r'./bkroom.xlsx')
2.1、查看待租数据中居室的占比分布
values = df['居室'].value_counts().sort_index()
# print(values)
index = list(values.index)
value = list(values)
fig,ax = plt.subplots()
fig.set_size_inches(9,7)
sns.countplot(df['居室'])
for a,b in zip(index,value):
# print(a)
plt.text(a-1,b,b,ha='center',va='bottom')
plt.show()