@R星校长
想租房的同学看过来!实用租房指南,全是过来人的经验😋#中国住房租赁人数超2亿# 怎样才能找到适合自己的“小窝”?实地看房要看些什么?签租房合同要注意哪些细节?超实用的租房指南。
打开终端,默认进入 /home/project
目录,安装需要的库:
sudo pip3 install --upgrade pip
sudo pip3 install bs4
sudo pip3 install lxml
实验原理
实验中会用到三个文件:crawl.py
、rent.csv
与index.html
,其中:
crawl.py
是一个非常简单的爬取网页的脚本。rent.csv
由crawl.py
生成,是房源文件。
实现的流程大致如下:
我为什么不把 js
代码和 css
代码从index.html
中分出来呢,写脚本怎么顺手怎么来就好。
代码没有难度,主要就是看看几个 API 如何使用,下面给出文档链接:
先分析一下我们需要爬取的页面:https://bj.58.com/pinpaigongyu/
选择好目标价位:
按 F12 键或右键点击检查分析元素:
我们发现所有的租房信息都是一个 li 标签,并且都位于 ul 标签下,当我们往下移的时候,相应的标签也会越来越多,所以我们便可以利用有无 list 类来判定是否为租房请求。当然,这是在没有任何条件获取到的全部信息,但很多信息我们是不会看的,既然有租房的意愿,那么我们就有一个大致的心理承受价格,因此我们可以来分析一下该网站的 url 构造形式,大致了解了它的路径规则:/pingpaigo