Node.js 库 Puppeteer 网页爬取

最新推荐文章于 2024-07-05 11:06:13 发布

克里斯蒂亚诺更新

最新推荐文章于 2024-07-05 11:06:13 发布

阅读量338

点赞数 2

分类专栏： python 文章标签： node.js

本文链接：https://blog.csdn.net/weixin_36152801/article/details/137941663

版权

python 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

本文介绍了Google开发的Puppeteer库，如何利用Node.js控制Chromium或Chrome浏览器进行自动化测试、网页抓取和截图。通过示例展示了如何使用Puppeteer打开网页并获取标题，以实现各种浏览器操作任务的自动化。

摘要由CSDN通过智能技术生成

Puppeteer 是一个由 Google 开发的 Node.js 库，用于控制 Chromium 或 Chrome 浏览器进行自动化测试、网页截图、网页爬取等操作。它提供了一组 API，让你可以在浏览器环境中模拟用户的行为，比如点击、填写表单、导航等。

以下是一个简单的例子，演示如何使用 Puppeteer 打开一个网页，并获取网页标题：

const puppeteer = require('puppeteer');

// 启动浏览器
(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();

  // 打开网页
  await page.goto('https://www.example.com');

  // 获取网页标题
  const pageTitle = await page.title();
  console.log('网页标题:', pageTitle);

  // 关闭浏览器
  await browser.close();
})();

在这个例子中，首先通过 require('puppeteer') 导入了 Puppeteer 库。然后使用 puppeteer.launch() 启动了一个浏览器实例，并通过 browser.newPage() 创建了一个新的页面。接着，使用 page.goto() 打开了一个网页（这里以示例网站 https://www.example.com 为例）。然后通过 page.title() 方法获取了网页的标题，并输出到控制台。最后，调用 browser.close() 方法关闭了浏览器。

通过 Puppeteer，你可以方便地控制浏览器进行各种操作，从而实现自动化测试、网页截图、网页爬取等任务。