自动化神器Puppeteer使用教程

最新推荐文章于 2024-10-18 19:50:06 发布

前端幺蛾子

最新推荐文章于 2024-10-18 19:50:06 发布

阅读量3.3k

点赞数

分类专栏：前端进阶文章标签：自动化 chrome 前端 javascript 爬虫

本文链接：https://blog.csdn.net/starseaX/article/details/122288068

版权

前端进阶专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Puppeteer 是一个 Node 库，它提供了一个高级 API 来通过DevTools 协议控制 Chrome 或 Chromium 。Puppeteer默认无头运行，但可以配置为运行完整（非无头）Chrome 或 Chromium。

Puppeteer的用处非常多，凡是你能想到的网页自动化操作，他都可以做到。常见的使用场景有

生成页面的屏幕截图和 PDF。
抓取 SPA（单页应用程序）并生成预渲染内容（即“SSR”（服务器端渲染））。
抓取网页数据。

安装

npm i puppeteer

由于安装过程中会从google的网站里下载 Chromium浏览器，国内用户大概率是安装不上，所以在.npmrc文件添加一个下载镜像

PUPPETEER_DOWNLOAD_HOST=https://npm.taobao.org/mirrors

启动

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://www.baidu.com');
  // 将网页截图
  await page.screenshot({ path: 'example.png' });

  await browser.close();
})();

常用方法

page.evaluate

这个方法是在网页中执行代码，要注意和当前执行的Node环境区分，除了第一个参数外，后面的参数都是向网页注入的数据，这里的数据类型只能是string number bool这样的基本类型。

const result = await page.evaluate((x) => {
  return Promise.resolve(8 * x);
}, 7);
console.log(result); // prints "56"

page.exposeFunction

这个方法可以向网页中注入自定义函数，解决了evaluate 传递的数据只能是基本类型。注意函数命名的问题，不要和当前环境下的命名冲突，不然执行时会出现函数名未定义的情况。

const puppeteer = require('puppeteer');
const crypto = require('crypto');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  page.on('console', (msg) => console.log(msg.text()));
  await page.exposeFunction('md5', (text) =>
    crypto.createHash('md5').update(text).digest('hex')
);
  await page.evaluate(async () => {
    // use window.md5 to compute hashes
    const myString = 'PUPPETEER';
    const myHash = await window.md5(myString);
    console.log(`md5 of ${myString} is ${myHash}`);
  });
  await browser.close();
})();

page.on

这个方法可以用来监听网页的事件，比较常用的是来监听请求的。

this.page.on('response', (res) => {
  const url = res.url();
  const resourceType =  res.request().resourceType();
});

page.type

这个方法用来给输入框赋值的，不同于直接给value，type会模拟键盘的输入。

用value赋值会出现change方法不会触发的问题，在提交表单的时候可能就丢失数据了。

 await page.type('#mytextarea', 'Hello');
 // Types instantly
 await page.type('#mytextarea', 'World', { delay: 100 });

前端幺蛾子

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录