爬虫的新模块pyppeteer的使用之禁止加载图片截获response和request

最新推荐文章于 2024-06-24 22:42:23 发布

0x8g1T9E

最新推荐文章于 2024-06-24 22:42:23 发布

阅读量1w

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/sirobot/article/details/106909452

版权

截获response和request

await page.setRequestInterception(True)
page.on('request', intercept_request)
page.on('response', intercept_response)

intercept_request和intercept_response相当于是注册的两个回调函数，在浏览器发出请求和获取到请求之前指向这两个函数。

比如可以这样禁止获取图片、多媒体资源和发起 websocket 请求：

async def intercept_request(req):
    """请求过滤"""
    if req.resourceType in ['image', 'media', 'eventsource', 'websocket']:
        await req.abort()
    else:
        await req.continue_()

然后每次获取到请求之后将内容打印出来（这里只打印了fetch和xhr类型response 的内容）：

async def intercept_response(res):
    resourceType = res.request.resourceType
    if resourceType in ['xhr', 'fetch']:
        resp = await res.text()
        print(resp)

from scrapy import signals
import pyppeteer
import asyncio
import os
import time
import json
import tkinter
from scrapy.http import HtmlResponse
from Aliexpress.ConfigDB import RedisDB,RedisPool
import logging
pyppeteer_level = logging.WARNING
logging.getLogger('pyppeteer').setLevel(pyppeteer_level)
logging.getLogger('websockets.protocol').setLevel(pyppeteer_level)
pyppeteer_logger = logging.getLogger('pyppeteer')
pyppeteer_logger.setLevel(logging.WARNING)
# redisconn=RedisDB(db=0)
redisconn=RedisPool(db=0)
pyppeteer.DEBUG = False

def _patch_pyppeteer():
    from typing import Any
    from pyppeteer import connection, launcher
    import websockets.client

    class PatchedConnection(connection.Connection):  # type: ignore
        def __init__(self, *args: Any, **kwargs: Any) -> None:
            super().__init__(*args, **kwargs)
            # the _ws argument is not yet connected, can simply be replaced with another
            # with better defaults.
            self._ws = websockets.client.connect(
                self._url,
                loop=self._loop,
                # the followi

最低0.47元/天解锁文章

0x8g1T9E

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
爬虫的新模块pyppeteer的使用之禁止加载图片截获response和request

截获response和requestawait page.setRequestInterception(True)page.on('request', intercept_request)page.on('response', intercept_response)intercept_request和intercept_response相当于是注册的两个回调函数，在浏览器发出请求和获取到请求之前指向这两个函数。比如可以这样禁止获取图片、多媒体资源和发起 websocket 请求：a
复制链接

扫一扫