Python 6个维度，数万条数据帮你揭秘房租大涨！

最新推荐文章于 2023-10-31 16:20:13 发布

PythonJavaPHP

最新推荐文章于 2023-10-31 16:20:13 发布

阅读量552

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/PythonJavaPHP/article/details/103163494

版权

本文使用Python爬取链家网数万条北京租房数据，通过数据获取、清洗和分析，揭示房租上涨的现状。数据显示，北京各区域房租普遍在6000元/月以上，东城区最高，部分人群的房租支出占收入比例接近60%。文章探讨了房租上涨的原因，包括长租平台的资本运作和市场供需关系等。

摘要由CSDN通过智能技术生成

最近休息了一段时间，现在开启更新模式!

8月初，有网友在“水木论坛”发帖控诉长租公寓加价抢房引起关注。据说，一名业主打算出租自己位于天通苑的三居室，预期租金7500元/月，结果被二方中介互相抬价，硬生生抬到了10800。

过去一个月，全国热点城市的房租如脱缰野马。一线的房租同比涨了近20%。一夜醒来，无产青年连一块立锥之地都悬了。

从2018下半年开始，租金海啸汹汹来袭，资本狂欢，官方默然，房东纠结，租客尖叫。

这不是一方的过错，而更像是一场全社会的“集体谋杀作品”。最令人不安的是，过去房地产的那套玩法和上涨逻辑，今天正在转移到房租上。

房租暴涨的不只是北京。有数据显示，7月份北京、上海、广州、深圳、天津、武汉、重庆、南京、杭州和成都十大城市租金环比均有所上涨。其中北京、上海、深圳的租金涨幅最猛，北京7月份房租同比上涨3.1%，有小区甚至涨幅超过30%。

图自“21世纪经济报道”《最新房租数据出炉，你一个月要交多少钱？（附房租地图）》一文

接下来，恋习Python通过Python大法通过获取某网数万条北京租房数据，给大家说说真实的房租情况。

还是老规矩，老套路（是不是有股熟悉的味道），恋习Python常用的三部曲：数据获取、数据清洗预览、数据分析可视化，与你一起探究最近房租的状况。

一、数据获取

恋习Python今日就把目前市场占有率最高的房屋中介公司为目标，来获取北京、上海两大城市的租房信息。（目标链接：https://bj.lianjia.com/zufang/）

整体思路是：

先爬取每个区域的url和名称，跟主url拼接成一个完整的url，循环url列表，依次爬取每个区域的租房信息。
在爬每个区域的租房信息时，找到最大的页码，遍历页码，依次爬取每一页的二手房信息。

post代码之前简单讲一下这里用到的几个爬虫Python包：

requests: 就是用来请求对链家网进行访问的包
lxml: 解析网页，用xpath表达式与正则表达式一起来获取网页信息，相比bs4速度更快

详细代码如下：

import requests
import time
import re
from lxml import etree

# 获取某市区域的所有链接
def get_areas(url):
   print('start grabing areas')
   headers = {
       'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'}
   resposne = requests.get(url, headers=headers)
   content = etree.HTML(resposne.text)
   areas = content.xpath("//dd[@data-index = '0']//div[@class='option-list']/a/text()")
   areas_link = content.xpath("//dd[@data-index = '0']//div[@class='option-list']/a/@href")
   for i in range(1,len(areas)):
       area = areas[i]
       area_link = areas_link[i]
       link = 'https://bj.lianjia.com' + area_link
       print("开始抓取页面")
       get_pages(area, link)

#通过获取某一区域的页数，来拼接某一页的链接
def get_pages(area,area_link):
   headers = {
       'User-Agent': 'Mozilla