爬虫设计翻页链接实战——基于链家网站

最新推荐文章于 2021-07-26 00:40:37 发布

小林的秃头史

最新推荐文章于 2021-07-26 00:40:37 发布

阅读量379

点赞数 1

分类专栏：实战文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42777402/article/details/114857532

版权

爬虫对象为链家网

url = 'https://bj.lianjia.com/ershoufang/'

在爬取该网页前，要弄明白哪些数据是js加载的，一个很简单的方法是禁止当前页面js加载，观察禁止前后网页的变化。
发现在禁止js加载后，该网页的翻页模块消失了，说明链家的翻页功能是通过js渲染的
下面是实现翻页功能的标签
在这里插入图片描述

思索一番后，决定采用xpath方法获取该标签的page-data属性，以获得总页数（totalPage）和当前页数（curPage），而后采取链接格式化的方式，循环遍历所有页面。具体实现代码如下：

import requests
from lxml import etree
import json
import time
url =

最低0.47元/天解锁文章

小林的秃头史

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫设计翻页链接实战——基于链家网站

爬虫对象为链家网url = 'https://bj.lianjia.com/ershoufang/'在爬取该网页前，要弄明白哪些数据是js加载的，一个很简单的方法是禁止当前页面js加载，观察禁止前后网页的变化。发现在禁止js加载后，该网页的翻页模块消失了，说明链家的翻页功能是通过js渲染的下面是实现翻页功能的标签思索一番后，决定采用xpath方法获取该标签的page-data属性，以获得总页数（totalPage）和当前页数（curPage），而后采取链接格式化的方式，循环遍历所有页面。具体实
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。