《封号码罗》python爬虫之10行代码破解网页动态反爬虫(二)

面对网页异步动态反爬虫,当直接分析接口困难时,可以使用selenium、pyppeteer或splash等工具进行动态渲染。selenium简单易懂但速度较慢,pyppeteer速度快但语法复杂,splash运行于docker上的lua服务,配置繁琐。本文以pyppeteer为例,展示如何用它绕过动态渲染进行爬取。
摘要由CSDN通过智能技术生成

网页异步动态反爬虫,就是数据不在HTML的原始文件中,而是通过ajax等技术,异步获取数据并且渲染到页面上的,有的时候,我们可以直接分析出异步接口,通过直接请求接口获取数据,但是遇到加密复杂的接口,可能破解起来比较消耗时间,这个时候我们就可以借助动态渲染的工具,如selenium,pyppeteer,或者splash等等。
三个工具都可以实现动态页面的渲染,但是三个工具在使用时有明显的区别:
selenium是同步渲染的,速度要慢一些,使用的语法也非常易懂,入门首选;
pyppeteer是异步渲染的,速度要快一些,但是它的语法也相对更晦涩一些;
splash也是异步渲染的,但是配置起来稍显麻烦,并且它是运行在docker上面的一个轻量级服务,使用的是lua语言
在这里插入图片描述
正如上图所示,网页正文是异步加载的,下面使用pyppeteer来绕过动态渲染反爬虫

import asyncio
from pyppeteer import launch


"""
关于asyncio的一些关键字的说明:
event_loop 事件循环:程序开启一个无限循环,把一些函数注册到事件循环上,当满足事件发生的时候,调用相应的协程函数
coroutine 协程:协程对象,指一个使用async关键字定义的函数,它的调用不会立即执行函数,而是会返回一个协程对象。
协程对象需要注册到事件循环,由事件循环调用。
task 任务:一个协程对象就是一个原生可以挂起的函数,任务则是对协程进一步封装,其中包含了任务的各种状态
future: 代表将来执行或没有执行的任务的结果。它和task上没有本质上的区别
async/await 关键字:python3.5用于定义协程的关键字,async定义一个协程,await用于挂起阻塞的异步调用接口。
看了上面这些关键字,你可能扭头就走了,其实一开始了解和研究asyncio这个模块有种抵触,自己也不知道为啥,这也导致很长一段时间,
这个模块自己也基本就没有关注和使用,但是随着工作上用python遇到各种性能问题的时候,自己告诉自己还是要好
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值