网页数据分页怎么显示在一个页面_generic-crawler: 一个通用的分页爬虫接口

最新推荐文章于 2022-04-14 16:55:00 发布

weixin_39796140

最新推荐文章于 2022-04-14 16:55:00 发布

阅读量204

点赞数

文章标签：网页数据分页怎么显示在一个页面

分页爬虫要解决2个问题：一是获取每一页数据；二是获取每一页下每一个条目的详情数据。当然，主要是还是为了得到条目详情。

那么有没有想过有这么一个工具，当你填完几个预设好的坑后，可以像下面这样爬取分页数据：

const

写爬虫时，经常会遇到这样一类数据：数据很多，在页面上要分页显示。那么爬取时，代码也需要一页一页爬。纵观大部分带有分页功能的网页，其分页要么是基于页码，要么是基于游标。

这类分页请求通常会包含一个 pageNo 参数和一个 pageSize 参数，分别代表 第几页 和 每页显示多少条记录。

这类分页请求通常包含一个游标字段(可能叫 cursor 或 lastId 等)，用来追踪上次的分页位置；也会包含一个 pageSize 参数，来表示每页显示多少条记录。

无论基于哪一种，都需要考虑这一页爬取完成后，如何确定下一页的请求参数。

为了封装一个通用的分页爬虫接口，我们需要将几个关键点抽取出来。

有了以上分析，我们大概需要如下类型的封装：

由于实际应用中，每个网站的参数名或分页数据都是不同的，故上述类型都是泛型化的。

有了以上简单介绍，到了应用 generic-crawler 模块的时候了，它是对以上思路的封装。

首先在你的 Node.js 项目中安装依赖：

npm i @youmoo/generic-crawler

然后引入它：

import

假设我们要爬取网站 https://readhub.cn/topics 的内容，可编写代码如下：

// https://readhub.cn/topics

以上代码有3点要留意：

通过把每一步抽取出来，让用户各个击破，再自动串联起来供用户调用，是不是更加清晰了呢？

https://github.com/Youmoo/generic-crawlergithub.com

关注