nodejs爬虫puppeteer框架设计思想与应用

先说明一下技术栈的应用,使用typescript进行编写基于nodeJS环境的爬虫,也就是说puppeteer建立在nodeJS中,而开发者进行编写typescript代码,这样比较优美一点也有良好的封装特性,然后typescript编译为JavaScript运行建立在node中的puppeteer框架。

下面来谈一谈puppeteer的处理逻辑和应用思想,这是一个用户操作为准的框架,puppeteer干的事情就是模拟一个真实(虚假)的用户去进行浏览网页。然后通过一个真实的浏览器在程序中去进行控制dom文档,包括获取值参数等等后面再配合上mongoDB或者各种三方库形成一套完整的模拟操作爬虫系统。

其中puppeteer的设计思想是

Puppeteer 和Browser互动,browser代表浏览器,可以干浏览器可以干的所有事情,而Puppeteer

则是对浏览器进行控制的系统,让我们可以对浏览器进行控制,可能在实际应用中不是特别重要,但是我后面遇到的bug就出在了Puppeteer当中。

page则代表一个页面,浏览器又可以创建一个页面,page可以干网页能够做的任何事情。

如果对页面进行异步选择器操作那么页面则会返回一个异步ElementHandle,返回的这是一个dom的查询提供了查询信息,不过我们可以通常不使用这个方法。因为有更好的选择那就是eval类函数返回dom信息,这样更加切合网页代码流程操作。

这里也就是说page.$eval这个函数,这里写JavaScript代码,直接返回我们需要的所有信息。

那什么时候用$查询信息呢?

在浏览器代码和我们自己的代码高度重合难以分离的情况下使用,我们知道啊,JavaScript没办法被调试,所以程序在返回之前在浏览器中怎么运行都是未知数。但是建议尽量不要把代码都堆到eval中,虽然eval也可以传我们创建的变量。

正确的做法是使用eval只进行获取dom值,返回dom值我们这边我们进行处理业务逻辑,否则代码会变的难以维护。

查询的是可以嵌套的,嵌套的查询可能会返回JSHandle类型,这代表的是一个style属性,可以对style属性进行操作。

这就是puppeteer大体的设计思想了,可以完全胜任爬虫任务。

其中还有几个类也一并介绍吧:

这个框架是一个非常模拟正常用户操作的爬虫框架,所以几乎一半的api都是关于模拟操作的

Keyboard 关于键盘操作的类

Mouse 关于鼠标操作的类

Frame 关于框架操作的类,这个可能你会不理解什么是框架,给一个提示<iframe>嵌入页面,这是一个关于框架管理的类

request 这是一个page页面中如果有网页请求那么就可以被这个类捕获到,然后我们就可以进行业务逻辑。

target 一些基础信息获取

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值