爬取链家北京租房数据并做简单分析

本文通过爬取链家北京租房数据,分析了不同地区的租金差异和影响因素。数据清洗过程中剔除了重复和异常值。结果显示,东城、西城、朝阳、海淀地区租金最贵,通州、昌平等地较为实惠。近地铁房源租金普遍较高,而房屋朝向等因素对租金影响较小。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在一个来北京不久的学生眼中,北京是一个神秘又充满魅力的大城市。它无比美好,但又无时无刻不再觊觎这你薄弱的钱包。

租房是很多人都离不开的硬性需求,这里就对从链家爬取的北京地区房屋出租数据进行一个简单分析。

 

1. 明确需求

这次爬取数据分析的目的在于,通过爬取链家发布的租房信息,发现北京各地区的租房价格差异,以及探索影响北京租房价格的主要因素。

2. 提出猜想

简单分析了一下影响租房价格的因素,根据可以爬取到的数据选取了以下几个点:

  • 租房价格同面积、地理位置、公共交通因素高度相关
  • 租房价格受房屋格局、有无供暖因素影响
  • 租房价格几乎不受楼层、朝向、看房便利等因素影响

因为分析影响租房价格因素的树形图太长,放在文章末尾。

初步分析后借鉴了这篇文章加以完善:年轻人在租房网站找房的时候,他们在看什么?

3. 数据获取

租房数据全部来源于链家北京租房板块发布的信息,如下:

因为链家在当前分类下只最多展示100页共3000条数据,所以这里选择按照链家给出的地区分类,遍历爬取其所有地区展示的租房信息:

4. 数据清洗

1)调整格式

对房屋价格、房屋面积等字段进行调整,提取其中的数值。

2)重复值

格式调整后发现存在5182条重复数据,判断重复数据的标准为house_url字段,即每间房屋在链家上都对应唯一一个展示网页。

查看数据,发现在一对重复的数据间,除了posi_name和poai_nam

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值