爬虫对象为链家网
url = 'https://bj.lianjia.com/ershoufang/'
在爬取该网页前,要弄明白哪些数据是js加载的,一个很简单的方法是禁止当前页面js加载,观察禁止前后网页的变化。
发现在禁止js加载后,该网页的翻页模块消失了,说明链家的翻页功能是通过js渲染的
下面是实现翻页功能的标签
思索一番后,决定采用xpath方法获取该标签的page-data属性,以获得总页数(totalPage)和当前页数(curPage),而后采取链接格式化的方式,循环遍历所有页面。具体实现代码如下:
import requests
from lxml import etree
import json
import time
url =