网页异步动态反爬虫,就是数据不在HTML的原始文件中,而是通过ajax等技术,异步获取数据并且渲染到页面上的,有的时候,我们可以直接分析出异步接口,通过直接请求接口获取数据,但是遇到加密复杂的接口,可能破解起来比较消耗时间,这个时候我们就可以借助动态渲染的工具,如selenium,pyppeteer,或者splash等等。
三个工具都可以实现动态页面的渲染,但是三个工具在使用时有明显的区别:
selenium是同步渲染的,速度要慢一些,使用的语法也非常易懂,入门首选;
pyppeteer是异步渲染的,速度要快一些,但是它的语法也相对更晦涩一些;
splash也是异步渲染的,但是配置起来稍显麻烦,并且它是运行在docker上面的一个轻量级服务,使用的是lua语言
正如上图所示,网页正文是异步加载的,下面使用pyppeteer来绕过动态渲染反爬虫
import asyncio
from pyppeteer import launch
"""
关于asyncio的一些关键字的说明:
event_loop 事件循环:程序开启一个无限循环,把一些函数注册到事件循环上,当满足事件发生的时候,调用相应的协程函数
coroutine 协程:协程对象,指一个使用async关键字定义的函数,它的调用不会立即执行函数,而是会返回一个协程对象。
协程对象需要注册到事件循环,由事件循环调用。
task 任务:一个协程对象就是一个原生可以挂起的函数,任务则是对协程进一步封装,其中包含了任务的各种状态
future: 代表将来执行或没有执行的任务的结果。它和task上没有本质上的区别
async/await 关键字:python3.5用于定义协程的关键字,async定义一个协程,await用于挂起阻塞的异步调用接口。
看了上面这些关键字,你可能扭头就走了,其实一开始了解和研究asyncio这个模块有种抵触,自己也不知道为啥,这也导致很长一段时间,
这个模块自己也基本就没有关注和使用,但是随着工作上用python遇到各种性能问题的时候,自己告诉自己还是要好