Puppeteer入门

简介

  • Puppeteer是 GoogleChrome 团队官方的无界面(Headless)Chrome工具
  • 它是一个NodeJs库
  • 提供了高级的 API 来控制基于Chrome Debug Protocols(简称 CDP)协议上的Headless Chrome
  • 可以用于配置控制正常的Chrome
  • 本文主要添加一些使用示例

安装

安装chrome

不再详细描述,下载安装即可。启动headless,参考链接

chrome \
  --headless \                   # Runs Chrome in headless mode.
  --disable-gpu \                # Temporarily needed if running on Windows.
  --remote-debugging-port=9222 \
  https://www.chromestatus.com   # URL to open. Defaults to about:blank.

安装Puppeteer

npm安装,详情参考链接

$ npm i --save puppeteer

示例代码

网页源码

const puppeteer = require('puppeteer');

(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto('https://www.toutiao.com', { waitUntil: 'networkidle2' });
    const pageContent = await page.content()
    console.log(pageContent)
    await page.close()
    await page.deleteCookie()
    await browser.close();
})();

网页截图

const puppeteer = require('puppeteer');

(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    page.setViewport({ width: 1920, height: 2160})
    await page.goto('https://www.toutiao.com', { waitUntil: 'networkidle2' });
    await page.screenshot({
        path:'toutiao.png'
    })
    await page.close()
    await page.deleteCookie()
    await browser.close();
})();

代理及认证

const puppeteer = require('puppeteer');

(async () => {
    const proxyServer = 'http://proxy_ip:proxy_port'
    const browser = await puppeteer.launch({
        headless:false,
        args: [`--proxy-server=${proxyServer}`]
    });

    const page = await browser.newPage();
    await page.authenticate({ username: 'username', password: 'password' })
    await page.goto('https://www.toutiao.com/', { waitUntil: 'networkidle2' });
    const pageContent = await page.content()
    console.log(pageContent)
    await page.close()
    await page.deleteCookie()
    await browser.close();
})();

设置代理

正常代理

const puppeteer = require('puppeteer');

(async () => {
    const proxyServer = 'http://proxy_ip:proxy_port'
    const browser = await puppeteer.launch({
        headless: false,
        args: [`--proxy-server=${proxyServer}`]
    });
})();

含有账密的代理

参考[示例代码 - 代理及认证]

PAC代理

const puppeteer = require('puppeteer');

(async () => {
    const pacProxyFile = 'file location'
    const browser = await puppeteer.launch({
        headless: false,
        args: [`google-chrome --proxy-pac-url=${pacProxyFile}`]
    });
    const page = await browser.newPage();
    await page.authenticate({ username: 'username', password: 'password' })
})();

相关链接

Chrome Debug Protocol
Headless 入门
Puppeteer
Puppeteer中文
相关教程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值