使用puppeteer库编写的爬虫程序

华科云商小吴

已于 2023-12-14 09:17:16 修改

阅读量964

点赞数 10

文章标签：爬虫

于 2023-12-14 09:12:33 首次发布

本文链接：https://blog.csdn.net/w15189597283/article/details/134986895

版权

下面是一个使用puppeteer库编写的爬虫程序，用于爬取https://www.12306.cn/的内容。代码中使用了代理服务器www.duoip.cn的8000端口。

```typescript
import * as puppeteer from 'puppeteer';

async function startCrawler() {
  // 创建一个新的浏览器实例
  const browser = await puppeteer.launch({
    headless: false, // 控制浏览器是否显示在桌面上，这里设置为false，即显示在桌面上
    devtools: true, // 是否打开开发者工具，这里设置为true
    args: ['--proxy-server=http://www.duoip.cn:8000'], // 设置代理服务器
  });

  // 创建一个新的页面实例
  const page = await browser.newPage();

  // 访问目标网站
  await page.goto('https://www.12306.cn/');

  // 使用page方法获取网页内容
  const content = await page.content();

  // 关闭浏览器和页面实例
  await browser.close();
  await page.close();

  // 输出爬取到的内容
  console.log(content);
}

startCrawler();
```

以上代码首先创建了一个新的浏览器实例，并设置了代理服务器为www.duoip.cn的8000端口。然后创建了一个新的页面实例，并访问了目标网站https://www.12306.cn/。接着使用page方法获取了网页内容，并关闭了浏览器和页面实例。最后输出了爬取到的内容。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

华科云商小吴

关注关注

10
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

开源爬虫神器，Playwright vs Puppeteer 对比，你应该选择哪个？

9点0频道

01-11

2688

Playwright是一个用于浏览器自动化的 Node.js库。 Puppeteer也是一个用于浏览器自动化的 Node.js 库。让我们看看它们的历史由来，并考虑在实际使用应该如何选择。Angular 团队对自动化框架进行了调查,自动化测试框架的使用比例，如下图所示图片来自TestCafe vs Cypress: Core Differences | BrowserStack 测试自动化有哪些类似的开源工具？ WebdriverIO ：一个使用 Selenium WebDriver

使用Puppeteer库的爬虫程序来爬取拼多多网站的视频

w15189597283的博客

01-11

1049

在这个函数中，我们首先创建了一个新的浏览器实例，并告诉它使用代理服务器。然后，我们创建了一个新的页面实例，并访问了拼多多网站。接着，我们查找了所有的视频元素，并遍历了这些元素。对于每一个视频元素，我们获取了它的URL，并打印出来。请注意，这段代码只是一个基本的示例，实际的爬虫程序可能需要处理更多的细节，比如错误处理、页面加载时间等。此外，由于拼多多网站的视频可能被加密或隐藏，这段代码可能无法获取到所有的视频URL。代码必须使用以下代码：代理主机：www.duoip.cn，代理端口：8000。

参与评论您还未登录，请先登录后发表或查看评论

Puppeteer使用示例详解

01-01

PhantomJS曾经是无头浏览器里的王者，测试、爬虫等都在使用，随着GoogleChrome Headless的出现，PhantomJS的作者已经明确表示不在更新，而GoogleChrome Headless将会是未来爬虫的趋势，而测试将依然会使用Webdriver那套方案，GoogleChrome Headless可以利用WebDriver调用，也可以使用其集成的API——Puppeteer（操纵木偶的人），他的功能和他的名字一样强大，可以随意操控Chrome或Chromeium，缺点就是只有node的API,来看看他的图标： Puppeteer是基于DevTools协议来控制head

puppeteer（二）操作实例——新Web自动化工具更轻巧更简单

weixin_30326745的博客

11-15

213

一、入门实例了解puppeteer见上一篇文章： https://www.cnblogs.com/baihuitestsoftware/p/9957343.html 1）本例主要是启动浏览器 1 const puppeteer = require('puppeteer'); 2 3 (async () => { 4 const browser = ...

Puppeteer环境搭建的详细步骤

01-01

简介 Puppeteer是Google开发并开源的一款工具，可用代码驱动浏览器操作。由于诸多优秀的特性，Puppeteer常被用在爬虫与自动化测试上。详细介绍参见官方 README 。 Puppeteer本身是个NodeJS的库，自动化脚本也需要使用NodeJS编写，如果对JS不了解建议先学习JavaScript基础语法，或者使用Selenium等其他工具去实现。对于一个陌生的工具，应当先检查是否适合自己，再去尝试使用，切莫盲目从众。 Puppeteer 用处利用网页生成PDF、图片爬取SPA应用，并生成预渲染内容（即“SSR” 服务端渲染）可以从网站抓取内容

玩转 Chrome DevTools，定制自己的调试工具

奇舞周刊

08-22

1139

Chrome DevTools 是我们每天都用的工具，它可以查看元素、网络请求、断点调试 JS、分析性能问题等，是辅助开发的利器。今天不讲怎么使用它，而是讲一个好玩的方向：定制自己的调试工具。之前讲过，Chrome DevTools 和 Chrome 是分离的架构，两者之间通过 WebSocket 通信，通信协议是 Chrome DevTools Protocol，简称 CDP：其实这不准确，具体...

使用Puppeteer编写爬虫

mapleandleaf的博客

06-07

1268

使用Puppeteer编写爬虫是一种流行的方法，因为它提供了高级API来控制Headless Chrome或Chromium浏览器，从而可以模拟用户交互、处理JavaScript渲染的页面内容。下面是一个使用Puppeteer编写的简单爬虫示例，这个示例将展示如何启动浏览器、打开一个网页、提取页面上的数据，并保存到本地文件中。

使用Puppeteer库的爬虫程序

w15189597283的博客

12-27

567

人工智能-项目实践-搜索引擎-底层使用puppeteer对配置项目进行预渲染的一个过程，提供给后续搜索引擎爬虫消费埋点规范平台

02-27

在本项目实践中，我们主要探讨的是如何利用人工智能技术，特别是JavaScript库Puppeteer，来优化搜索引擎的性能，并为搜索引擎爬虫提供友好的预渲染内容。这个项目被称为“breeze-prerender”，它是一个埋点规范平台...

小红书微信小程序爬虫.zip

02-21

这可能需要使用如Selenium、Puppeteer等浏览器自动化工具，或者直接利用微信小程序的API接口进行数据请求。对于接口的发现，可以通过开发者工具的网络面板监控请求。接着，数据解析是爬虫中的关键步骤。这里可能会...

b站用户python爬虫程序.zip

03-24

Python爬虫程序是一种用于自动化数据抓取的技术，它允许开发者编写代码来模拟浏览器行为，从网站上获取大量信息。在本案例中，"b站用户python爬虫程序.zip" 提供了一个专门针对哔哩哔哩（B站）用户的Python爬虫项目...

介绍一款反爬虫页面的爬虫利器 Puppeteer

Python知识圈

12-14

2296

点击上方蓝色文字，选择"置顶公众号"第一时间关注 Python 技术干货！阅读文本大概需要 6 分钟。今天给大家介绍一款反爬虫页面的爬虫利器 Puppeteer。Pup...

Electron桌面App测试框架Spectron VS Puppeteer

一群专业码农的笔记本

05-24

4876

Electron桌面App测试框架Spectron VS Puppeteer前言ElectronSpectron介绍试用试用评价Puppeteer介绍试用试用评价总结前言根据TDD（测试驱动开发）的原理，在开发实现某个功能前，先编写测试代码，然后再编写能通过测试代码的功能代码，通过测试来驱动整个开发的进行，有助于编写简洁可用和高质量的代码，并加速开发过程。测试在软件工程中的重要性已经无需过多阐述了，但在实际开发项目中，使用TDD作为指导思想的开发项目少之又少，开发人员往往抵触写单元测试（老子业务代码都

puppeteer替换selenium爬虫的试用

wenq_yang的博客

12-25

5852

一、优点 puppeteer是一个Nodejs的库，支持调用Chrome的API来操纵Web，相比较Selenium或是PhantomJs,它最大的特点就是它的操作Dom可以完全在内存中进行模拟既在V8引擎中处理而不打开浏览器，而且关键是这个是Chrome团队在维护，会拥有更好的兼容性和前景。二、安装 npm i puppeteer --save 注意点，如果下载chrome的时候报错...

爬取元气手机壁纸简单案例（仅用于教学，禁止任何非法获利）

2301_79810514的博客

09-27

883

BeautifulSoup 是一个用于解析 HTML 和 XML 的 Python 库，提供了方便的工具来提取和处理网页数据。以下是对 BeautifulSoup 的一些关键点的介绍：安装安装 requests。

Python爬虫爬取王者荣耀英雄信息并保存到图数据库

WwLK123的博客

09-27

1278

利用Python爬虫爬取王者荣耀全部英雄信息，并保存到图数据库。

Scrapy入门