nodejs爬虫puppeteer框架设计思想与应用

最新推荐文章于 2024-07-30 10:53:26 发布

-千里马-

最新推荐文章于 2024-07-30 10:53:26 发布

阅读量1.2k

点赞数

分类专栏： # JavaScript # typescript 程序设计文章标签：爬虫 javascript 前端 node.js

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24829537/article/details/123254865

版权

程序设计同时被 3 个专栏收录

25 篇文章 0 订阅

订阅专栏

16 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

先说明一下技术栈的应用，使用typescript进行编写基于nodeJS环境的爬虫，也就是说puppeteer建立在nodeJS中，而开发者进行编写typescript代码，这样比较优美一点也有良好的封装特性，然后typescript编译为JavaScript运行建立在node中的puppeteer框架。

下面来谈一谈puppeteer的处理逻辑和应用思想，这是一个用户操作为准的框架，puppeteer干的事情就是模拟一个真实（虚假）的用户去进行浏览网页。然后通过一个真实的浏览器在程序中去进行控制dom文档，包括获取值参数等等后面再配合上mongoDB或者各种三方库形成一套完整的模拟操作爬虫系统。

其中puppeteer的设计思想是

Puppeteer 和Browser互动，browser代表浏览器，可以干浏览器可以干的所有事情，而Puppeteer

则是对浏览器进行控制的系统，让我们可以对浏览器进行控制，可能在实际应用中不是特别重要，但是我后面遇到的bug就出在了Puppeteer当中。

page则代表一个页面，浏览器又可以创建一个页面，page可以干网页能够做的任何事情。

如果对页面进行异步选择器操作那么页面则会返回一个异步ElementHandle，返回的这是一个dom的查询提供了查询信息，不过我们可以通常不使用这个方法。因为有更好的选择那就是eval类函数返回dom信息，这样更加切合网页代码流程操作。

这里也就是说page.$eval这个函数，这里写JavaScript代码，直接返回我们需要的所有信息。

那什么时候用$查询信息呢？

在浏览器代码和我们自己的代码高度重合难以分离的情况下使用，我们知道啊，JavaScript没办法被调试，所以程序在返回之前在浏览器中怎么运行都是未知数。但是建议尽量不要把代码都堆到eval中，虽然eval也可以传我们创建的变量。

正确的做法是使用eval只进行获取dom值，返回dom值我们这边我们进行处理业务逻辑，否则代码会变的难以维护。

查询的是可以嵌套的，嵌套的查询可能会返回JSHandle类型，这代表的是一个style属性，可以对style属性进行操作。

这就是puppeteer大体的设计思想了，可以完全胜任爬虫任务。

其中还有几个类也一并介绍吧：

这个框架是一个非常模拟正常用户操作的爬虫框架，所以几乎一半的api都是关于模拟操作的

Keyboard 关于键盘操作的类

Mouse 关于鼠标操作的类

Frame 关于框架操作的类，这个可能你会不理解什么是框架，给一个提示<iframe>嵌入页面，这是一个关于框架管理的类

request 这是一个page页面中如果有网页请求那么就可以被这个类捕获到，然后我们就可以进行业务逻辑。

target 一些基础信息获取

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nodejs爬虫puppeteer框架设计思想与应用

关于nodeJS爬虫框架puppeteer的主要设计思想和使用的流程，可以帮你避开一些坑。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。