本文主要讲解爬取安居客买房类别中的二手房和新房,将提取的信息存储在记事本中,也可以转存CSV格式或者MongoDB中。
网站HTML信息提取比较简单,没有什么特别的地方,作为爬虫入门可以让初学者快速了解爬虫方法。
认为有用的话请点赞,码字不易,谢谢。
其他爬虫实战请查看:https://blog.csdn.net/qq_42754919/category_10354544.html
1.页面分析
我们从网站的主页面开始提取网站信息,一直到最后具体的房产信息。
以二手房为例,我们对网页源代码进行分析。
(其余卖房租房等网址我们也可以爬取)
首先我们对页面源码进行分析,查找二手房和新房对应的源码和链接。
我们可以从HTML代码中找到每个区域对应的网址URL,因此直接提取出href属性就可以跳转到对应区域的房产信息。