python爬虫分析——广州租房信息爬取并分析

一、在某网站上爬取相关数据

爬取到的数据情况如下:

在这里插入图片描述

二、数据的读取和预处理(爬取下来的数据没有缺失值和异常值)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pandas import DataFrame as df 
#读取数据
data = df(pd.read_csv('C:/Users/86188/Desktop/Python数据挖掘与数据分析/广州租房信息分析/data/广州房价信息.csv'))
#print(data)
#数据的基本情况
data.describe()
#去重
data.drop_duplicates(keep='first')
len(data)
#室
data['室'] = data['房型'].str.split('室').str[0].replace("室", "")
#厅
data['厅'] = data['房型'].str[2:4].replace("厅", "")
data['厅'] = data['厅'].str.replace("厅", "")
#卫
data['卫'] = data['房型'].str[4:].replace("卫", "")
data['卫'] = data['卫'].str.replace("卫", "")
#楼层
data['楼层'] = data['楼层'].str.split(':').str[1]
#删去房间链接和房间图片,对于房间数据分析没作用
data.drop(labels=['房间链接','房间图片'],axis=1,inplace=True)

在这里插入图片描述
可以看出有效数据记录3000条,没有缺失值,也没有异常值
在这里插入图片描述

三、分析租房的朝向

#让图片正常显示中文和负号
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
zuoxiang = (data['坐向'].value_counts())[:16].to_frame()
plt.figure(figsize=(8,6),dpi=300)
plt.bar(zuoxiang.index.values, zuoxiang['坐向'], width=0.5, linewidth=2)
for i,j in zip(zuoxiang.index.values , zuoxiang['坐向']):
    plt.text(i , j , "%d" % j, fontsize=16)
plt.xlabel("朝向")
plt.ylabel("数量")
plt.xticks(rotation=45)
plt.yticks(rotation=45)
plt.title("租房朝向数量分布图")
plt.savefig('C:/Users/86188/Desktop/Python数据挖掘与数据分析/广州租房信息分析/tmp/租房朝向数量分布图')   #保存图片
plt.show()

在这里插入图片描述
**结论:**可以看出租房的主要朝向是南、北、东南、东、南和北,南方地理位置适合朝向为南的,采光更好。单就朝向而言,大部分租房的采光条件、通风条件还是比较好的(忽略握手楼、高楼掩盖等因素)。

四、分析各行政区的房源数量

在这里插入图片描述
**分析与结论:**房源主要来自番禺、黄埔、天河、荔湾四个大区,越秀、花都、白云、海珠、增城区稍微少一些,结合当下情况分析,番禺属于开发区且房租便宜、地段多,存在问题是交通不方便,所以租出去的少,房源是比较充足的;黄埔区开发后,回迁房多,很多原住民晋升为房东,故而房源也比较多,交通比较便利;天河、荔湾、海珠区三区,老房子比较多,房源还是比较多;花都、白云两个郊区是近年来,很多打工人的选择地,比较便宜、交通也还可以、主要是环境会比老城区好,也没有去番禺要挤3号线的苦恼;增城、从化、南沙较为少,以旅游旅客为主,房源更多面向本区的工作人员。

五、分析租房的主要房型(X室X厅X卫)

在这里插入图片描述
**分析:**从图中我们可以明显发现,出租房主要以单间、合租的四人房、三人房为主;主要面对实习学生、外出打工人员为主。

六、分析出租方式(整租还是合租)

data['合租/整租'] = data['房间标题'].str.split('·').str[0]
style = (data['合租/整租'].value_counts())[:16].to_frame()
plt.pie(style['合租/整租'],labels=style.index.values,autopct='%.1f%%')
plt.title('广州租房方式信息')
plt.axis('equal')#显示为圆
plt.show()

在这里插入图片描述
**分析与结论:**大部分以整租方式出租,少部分以合租方式出租,所以每年毕业季都有不少校内学生结伴租房,寻找好室友。

七、分析一下广州的租房价格

plt.scatter(data['面积'],data['价格'])
plt.xlabel('面积(平方)')
plt.ylabel('价格(元/月)')
plt.grid(linestyle=":", color="r")
plt.title('价格与面积的关系')
plt.show()

在这里插入图片描述
租房的价格主要集中在(0,10000]的区间,租房价格和面积有一定的关系,面积越大,房租也会有所上涨,租房面积基本在(0,200]的区间上。

在这里插入图片描述
从图中可以看出,平均每平方米租金价格最贵的是越秀区,每平方米租金为125人民币,其次到天河区,每平方米租金95人民币。这两个区交通便利、房源较多、属于市区,所以价格会高一些。而从化、南沙、增城、花都这些郊区就低很多。最适合学生党租房的应该是黄埔区,价格不高,房源多。

q = data.groupby(data['所在区'])
plt.plot(q['价格'].mean())
plt.title('各区租房的均价')
plt.show()

在这里插入图片描述
结合此图看,其实越秀区的平均房租还是比较低的,白云和天河的平均房租较高,可能受极值影响,被拉高了。

q = data.groupby(data['所在区'])
plt.plot(q['价格'].median())
plt.title('各区租金的中位数')
plt.show()

在这里插入图片描述
从中位数来看,果然白云和荔湾被狠狠地拉高了,天河房租确实是比较贵,黄埔区房租均价受极小值影响,被拉低了。

sns.boxplot(x=data["所在区"], y=data["价格"])
plt.title("广州各区房价箱型图", loc="center")
plt.savefig("C:/Users/86188/Desktop/Python数据挖掘与数据分析/广州租房信息分析/tmp/各区价格对比图")
plt.show()

在这里插入图片描述
从箱型图可以看出,综合交通、上班集中地等方面,黄埔、番禺区的租金价格还是很稳定、较便宜的。

八、分析房型与价格

在这里插入图片描述
从图可以看出,最便宜的就是1室0厅0卫,最贵的是9室3厅1卫。

plt.subplot(3,1,1) #一行两列第一个图
plt.scatter(data['室'],data['价格'])
plt.xlabel('房间数量')
plt.ylabel('价格(元/月)')
plt.title('房间数量与价格的关系')
plt.xticks(rotation=45)
plt.yticks(rotation=45)
plt.subplot(3,1,3) #一行两列第一个图
plt.title('类型统计',fontsize=20,)
data['室'].value_counts().plot(kind='bar',) #绘制条形图
plt.xlabel('房间数量')
plt.ylabel('数量')
plt.xticks(rotation=45)
plt.yticks(rotation=45)
plt.show()

在这里插入图片描述
由图可以看出,租双人房、五人房比较便宜,单人房价格算居中,三人房和四人房都比较贵,九人房最贵。学生党可以租双人房,实惠,房源数量充足、有一定的挑选空间,单人房数量更为充裕,租金价格居中,也可以考虑。
#室、卫、厅对租金价格的影响曲线

在这里插入图片描述
从图中可以发现,室、厅、卫对房租均价影响都不算大。

from scipy.stats import pearsonr
reasult1 = pearsonr(pd.to_numeric(data['室']),data['价格'])
reasult2 = pearsonr(pd.to_numeric(data['厅']),data['价格'])
reasult3 = pearsonr(pd.to_numeric(data['卫']),data['价格'])
print(df({'名称':['室','厅','卫'],'personr系数':[reasult1,reasult2,reasult3]}))

在这里插入图片描述
由此表可以看出,室的数量和租金价格的关系是比较大的,其次到厅,而卫和租金价格的关系不大。

九、分析面积、区域、租金价格之间的关系

在这里插入图片描述
可以看出来天河区的租房面积与租金价格成正比,荔湾区的则是集中在(0,10000],受极值点影响很大,从化区更是两极分化,黄埔区的租房面积与租金价格都是比较适合学生党,而花都由于交通不便,所以价格便宜、面积大。

  • 8
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值