爬虫神器 Pyppeteer 介绍及爬取某商城实战

最新推荐文章于 2024-05-31 14:21:08 发布

Python数据之道

最新推荐文章于 2024-05-31 14:21:08 发布

阅读量2.5k

点赞数 11

文章标签： python java javascript web html

本文链接：https://blog.csdn.net/lemonbit/article/details/108915010

版权

作者：叶庭云，来自读者投稿

编辑：Lemon

出品：Python数据之道

提起 selenium 想必大家都不陌生，作为一款知名的 Web 自动化测试框架，selenium 支持多款主流浏览器，提供了功能丰富的API 接口，经常被我们用作爬虫工具来使用。

但是 selenium 的缺点也很明显，比如速度太慢、对版本配置要求严苛，最麻烦是经常要更新对应的驱动。还有些网页是可以检测到是否是使用了selenium 。并且selenium 所谓的保护机制不允许跨域 cookies 保存以及登录的时候必须先打开网页然后后加载 cookies 再刷新的方式很不友好。

今天给大家介绍另一款 web 自动化测试工具 Pyppeteer，虽然支持的浏览器比较单一，但在安装配置的便利性和运行效率上相比selenium要好。

介绍 Pyppeteer 之前先说一下 Puppeteer，Puppeteer 是 Google 基于 Node.js 开发的一个工具，主要是用来操纵 Chrome 浏览器的 API，通过 Javascript 代码来操纵 Chrome 浏览器的一些操作，用作网络爬虫进行数据爬取、Web 程序自动测试等任务。

其 API 极其完善，功能非常强大。而 Pyppeteer 实际上是 Puppeteer 的 Python 版本的实现，但他不是 Google 开发的，是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本。

1. Pyppeteer 介绍

Puppeteer 是 Google 基于 Node.js 开发的一个工具，有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作，当然也可以用作网络爬虫上，其 API 极其完善，功能非常强大，Selenium 当然同样可以做到。

而 Pyppeteer 又是什么呢？它实际上是 Puppeteer 的 Python 版本的实现，但它不是 Google 开发的，是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本。

在 Pyppetter 中，实际上它背后也是有一个类似 Chrome 浏览器的 Chromium 浏览器在执行一些动作进行网页渲染，首先说下 Chrome 浏览器和 Chromium 浏览器的渊源。

Chromium 是谷歌为了研发 Chrome 而启动的项目，是完全开源的。二者基于相同的源代码构建，Chrome 所有的新功能都会先在 Chromium 上实现，待验证稳定后才会移植，因此 Chromium 的版本更新频率更高，也会包含很多新的功能，但作为一款独立的浏览器，Chromium 的用户群体要小众得多。

两款浏览器“同根同源”，它们有着同样的 Logo，但配色不同，Chrome 由蓝红绿黄四种颜色组成，而 Chromium 由不同深度的蓝色构成。

总而言之，两款浏览器的内核是一样的，实现方式也是一样的，可以认为是开发版和正式版的区别，功能上基本是没有太大区别的。

Pyppeteer 就是依赖于 Chromium 这个浏览器来运行的。在有了 Pyppeteer 之后，就可以免去那些烦琐的环境配置等问题。

第一次运行的时候，如果Chromium 浏览器没有安装，那么程序会帮我们自动安装和配置，就免去了烦琐的环境配置等工作。

另外 Pyppeteer 是基于Python 的新特性 async 实现的，所以它的一些执行也支持异步操作，效率相对于 Selenium 来说也提高了。

2. Pyppeteer 的安装与使用

Pyppeteer 的安装

由于 Pyppeteer 采用了 Python 的 async 机制，所以其运行要求的 Python 版本为 3.5 及以上。安装方式很简单，命令行 pip 安装即可。

pip3 install pyppeteer

安装完成之后在命令行测试：

import pyppeteer

如果没有报错，那就证明安装成功了。

Pyppeteer 的基本使用

Pyppeteer 是一款非常高效的 web 自动化测试工具，由于 Pyppeteer 是基于 asyncio 构建的，它的所有属性和方法几乎都是 coroutine (协程) 对象，因此在构建异步程序的时候非常方便，天生就支持异步运行。

测试代码如下：

import asyncio
from pyppeteer import launch
import random
def screen_size():
    # 使用tkinter获取屏幕大小
    import tkinter
    tk = tkinter.Tk()
    width = tk.winfo_screenwidth()
    height = tk.winfo_screenheight()
    tk.quit()
    return width, height
async def main():
    # 建立一个浏览器对象
    browser = await launch(headless=False)
    # 打开新的标签页
    page = await browser.newPage()
    # 设置网页视图大小
    width, height = screen_size()
    await page.setV

最低0.47元/天解锁文章

Python数据之道

关注

11
点赞
踩
80

收藏

觉得还不错? 一键收藏
4
评论
爬虫神器 Pyppeteer 介绍及爬取某商城实战

作者：叶庭云，来自读者投稿编辑：Lemon出品：Python数据之道提起 selenium 想必大家都不陌生，作为一款知名的 Web 自动化测试框架，selenium 支持多款主流浏览器...
复制链接

扫一扫