前言
小编的一个好朋友跑去杭州工作了,跟我吐槽杭州的租房太贵了,房租正在成为摧垮年轻人的“第一根稻草”,在杭州打拼的你,所在的城区房租涨了吗?你是否还能潇洒地说出 “买不起房子,就租嘛”?
小编于是就爬取了杭州的租房信息并进行了简单的数据分析,唉,买不起房子,感觉也快租不起房子了。
基本环境配置
版本:Python3.6
复制代码
系统:Windows
爬虫部分:
import re
import time
import requests
from lxml import etree
复制代码
数据可视化部分:
import pandas as pd
from pyecharts import Bar, Line, Overlap
复制代码
爬虫主要思路:
- 各个区域的租房信息总页数为 "..." ,所以无法直接获取,便通过下一页的链接,不断的判断,最后获取总页数
- 正常来说一页网页里是有30个房源的,但是最后一页一般是没到30个房源,所以需要判断最后一页有多少房源
- 租房信息的标题会有英文符的逗号,会导致后期txt文件转存为csv文件,出现错误,于是直接在信息获取的时候直接替换
- 对房间类型(几室几厅)的获取,本来以为里面都是数字,但是出现了 "多室多厅" 这种的,所以也予以判断删除,因为后面需要对单间价格进行计算,会出现错误
爬虫部分代码
数据分析部分代码
月薪没8K以上真的不好租房,太贵了,还是和别人合租划得来