先说明一下技术栈的应用,使用typescript进行编写基于nodeJS环境的爬虫,也就是说puppeteer建立在nodeJS中,而开发者进行编写typescript代码,这样比较优美一点也有良好的封装特性,然后typescript编译为JavaScript运行建立在node中的puppeteer框架。
下面来谈一谈puppeteer的处理逻辑和应用思想,这是一个用户操作为准的框架,puppeteer干的事情就是模拟一个真实(虚假)的用户去进行浏览网页。然后通过一个真实的浏览器在程序中去进行控制dom文档,包括获取值参数等等后面再配合上mongoDB或者各种三方库形成一套完整的模拟操作爬虫系统。
其中puppeteer的设计思想是
Puppeteer 和Browser互动,browser代表浏览器,可以干浏览器可以干的所有事情,而Puppeteer
则是对浏览器进行控制的系统,让我们可以对浏览器进行控制,可能在实际应用中不是特别重要,但是我后面遇到的bug就出在了Puppeteer当中。
page则代表一个页面,浏览器又可以创建一个页面,page可以干网页能够做的任何事情。
如果对页面进行异步选择器操作那么页面则会返回一个异步ElementHandle,返回的这是一个dom的查询提供了查询信息,不过我们可以通常不使用这个方法。因为有更好的选择那就是eval类函数返回dom信息,这样更加切合网页代码流程操作。
这里也就是说page.$eval这个函数,这里写JavaScript代码,直接返回我们需要的所有信息。
那什么时候用$查询信息呢?
在浏览器代码和我们自己的代码高度重合难以分离的情况下使用,我们知道啊,JavaScript没办法被调试,所以程序在返回之前在浏览器中怎么运行都是未知数。但是建议尽量不要把代码都堆到eval中,虽然eval也可以传我们创建的变量。
正确的做法是使用eval只进行获取dom值,返回dom值我们这边我们进行处理业务逻辑,否则代码会变的难以维护。
查询的是可以嵌套的,嵌套的查询可能会返回JSHandle类型,这代表的是一个style属性,可以对style属性进行操作。
这就是puppeteer大体的设计思想了,可以完全胜任爬虫任务。
其中还有几个类也一并介绍吧:
这个框架是一个非常模拟正常用户操作的爬虫框架,所以几乎一半的api都是关于模拟操作的
Keyboard 关于键盘操作的类
Mouse 关于鼠标操作的类
Frame 关于框架操作的类,这个可能你会不理解什么是框架,给一个提示<iframe>嵌入页面,这是一个关于框架管理的类
request 这是一个page页面中如果有网页请求那么就可以被这个类捕获到,然后我们就可以进行业务逻辑。
target 一些基础信息获取