python滚动条翻页爬取数据_scrapy实践之翻页爬取的实现

最新推荐文章于 2022-11-03 14:11:18 发布

VIP文章 weixin_39992072

最新推荐文章于 2022-11-03 14:11:18 发布

阅读量1k

点赞数

文章标签： python滚动条翻页爬取数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39992072/article/details/114444536

版权

安装

在scrapy框架中，spider具有以下几个功能

1. 定义初始爬取的url

2. 定义爬取的行为，是否跟进链接

3. 从网页中提取结构化数据

所谓的跟进链接，其实就是自动爬取该页的所有链接，然后顺着对应的链接延伸开来不断爬取，这样只需要提供一个网站首页，理论上就可以实现网站全部页面的爬取，实现点到面的功能。

如果自己来开发，不仅需要在算法层面，考虑是使用深度优先还是广度优先，还需要处理好提取的url的限制条件等细节工作。在scrapy中，开发过程被大大简化了，我们只需要定义以下几个关键部分的代码，就可以实现翻页效果。

1. Spider

核心思想是在parse方法中，返回新的Requests请求，代码如下

import scrapy

from hello_world.items import HelloWorldItem

class MirSpider(scrapy.Spider):

name = "MirSpider"

start_urls = ["http://mirtarbase.cuhk.edu.cn/php/search.php?opt=species&org=bta&sort=id&order=asc&page=1"]

def parse(self, response):

domain = 'http://mirtarbase.cuhk.edu.cn'

for row in response.xpath('//table/tr')

最低0.47元/天解锁文章

weixin_39992072

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python滚动条翻页爬取数据_scrapy实践之翻页爬取的实现

安装在scrapy框架中，spider具有以下几个功能1. 定义初始爬取的url2. 定义爬取的行为，是否跟进链接3. 从网页中提取结构化数据所谓的跟进链接，其实就是自动爬取该页的所有链接，然后顺着对应的链接延伸开来不断爬取，这样只需要提供一个网站首页，理论上就可以实现网站全部页面的爬取，实现点到面的功能。如果自己来开发，不仅需要在算法层面，考虑是使用深度优先还是广度优先，还需要处理好提取的url...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。