爬取链家北京租房数据并做简单分析

在一个来北京不久的学生眼中,北京是一个神秘又充满魅力的大城市。它无比美好,但又无时无刻不再觊觎这你薄弱的钱包。租房是很多人都离不开的硬性需求,这里就对从链家爬取的北京地区房屋出租数据进行一个简单分析。1. 明确需求这次爬取数据分析的目的在于,通过爬取链家发布的租房信息,发现北京各地区的租房价格差异,以及探索影响北京租房价格的主要因素。2. 提出猜想简单分析了一下影响租房价...
摘要由CSDN通过智能技术生成

在一个来北京不久的学生眼中,北京是一个神秘又充满魅力的大城市。它无比美好,但又无时无刻不再觊觎这你薄弱的钱包。

租房是很多人都离不开的硬性需求,这里就对从链家爬取的北京地区房屋出租数据进行一个简单分析。

 

1. 明确需求

这次爬取数据分析的目的在于,通过爬取链家发布的租房信息,发现北京各地区的租房价格差异,以及探索影响北京租房价格的主要因素。

2. 提出猜想

简单分析了一下影响租房价格的因素,根据可以爬取到的数据选取了以下几个点:

  • 租房价格同面积、地理位置、公共交通因素高度相关
  • 租房价格受房屋格局、有无供暖因素影响
  • 租房价格几乎不受楼层、朝向、看房便利等因素影响

因为分析影响租房价格因素的树形图太长,放在文章末尾。

初步分析后借鉴了这篇文章加以完善:年轻人在租房网站找房的时候,他们在看什么?

3. 数据获取

租房数据全部来源于链家北京租房板块发布的信息,如下:

因为链家在当前分类下只最多展示100页共3000条数据,所以这里选择按照链家给出的地区分类,遍历爬取其所有地区展示的租房信息:

4. 数据清洗

1)调整格式

对房屋价格、房屋面积等字段进行调整,提取其中的数值。

2)重复值

格式调整后发现存在5182条重复数据,判断重复数据的标准为house_url字段,即每间房屋在链家上都对应唯一一个展示网页。

查看数据,发现在一对重复的数据间,除了posi_name和poai_name1两个字

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值