Puppeteer 爬虫学习

最新推荐文章于 2024-06-07 23:38:13 发布

sk无法

最新推荐文章于 2024-06-07 23:38:13 发布

阅读量1.1k

点赞数

分类专栏： puppeteer 文章标签：爬虫学习 javascript

本文链接：https://blog.csdn.net/qq_44267691/article/details/129085662

版权

本文介绍了如何使用Puppeteer进行爬虫学习，重点在于通过配置文件、截图脚本和图片转存模块抓取百度图片。在安装和初始化Node.js环境后，通过选择合适的DOM元素，定时滑动页面来刷新数据。在执行过程中，由于Node.js环境中没有window对象，需借助page.evaluate方法在浏览器环境中执行脚本。同时，文章还提到了HTML、DOM、BOM等相关概念。

摘要由CSDN通过智能技术生成

puppeteer简介：

Puppeteer 是一个 Node 库，它提供了一个高级 API 来通过 DevTools 协议
控制 Chromium 或 Chrome。Puppeteer 默认以 headless 模式运行，
但是可以通过修改配置文件运行“有头”模式。

能作什么？：
生成页面 PDF。
抓取 SPA（单页应用）并生成预渲染内容（即“SSR”（服务器端渲染））。
自动提交表单，进行 UI 测试，键盘输入等。
创建一个时时更新的自动化测试环境。 使用最新的 JavaScript 和浏览器功能直接在最新版本的Chrome中执行测试。
捕获网站的 timeline trace，用来帮助分析性能问题。
测试浏览器扩展。

这是中文puppeteer文档

实战：
一安装：
安装nodejs, 再输入npm install puppeteer 安装这个库。注意puppeteer库有两个版本，一个是包含了chormedriver的puppeteer，另一个是不包含chormedriver的轻量级的puppeteer-core库。
再通过npm init 初始化一下。

二代码
1、需求：我是打算通过关键字输入去爬取百度图片。
2、关键点：①通过合适的selector去获取到相应的元素 ②这个图片是分组的，需要分多个组,每个组的图片数目还不一样 ③需要定时的滑动页面去刷新数据
3、大致代码逻辑
①通过config 中的Dogconfig.js去获取存储的路径
②通过screenshot.js去实现爬取的主要图片的链接
③通过utils中的srcToimg去实现通过链接将图片存储在本地的目录中

Dogconfig.js

const path =require('path');

module.exports={
    Dogscreenshot: path.resolve(__dirname,'../Dogscreenshot')
}

screenshot.js

const puppeteer = require('puppeteer');
const {screenshot} =require('./config/default');
const { Dogscreenshot } = require('./config/Dogconfig');
const srcToimg =require('./utils/srcToimg')


function sleep (ms) {
    return new Promise(resolve => setTimeout(resolve, ms))
  }  //sleep函数


async function autoScroll(page) {    //滚动界面
    return page.evaluate(() => {
      return new Promise((resolve, reject) => {
        let totalHeight = 0;
        let distance =

最低0.47元/天解锁文章

sk无法

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Puppeteer 爬虫学习

nodejs不能直接调用window，会显示window not define的错误，因为Web中使用JavaScript，BOM是核心，而BOM的核心对象是window。2、关键点：①通过合适的selector去获取到相应的元素 ②这个图片是分组的，需要分多个组,每个组的图片数目还不一样 ③需要定时的滑动页面去刷新数据。2、它是一个全局对象，定义在全局作用域中的变量，函数都会变成window对象的属性和方法。③通过utils中的srcToimg去实现通过链接将图片存储在本地的目录中。
复制链接

扫一扫

专栏目录