爬虫的新模块pyppeteer的使用之 禁止加载图片 截获response和request

截获response和request

await page.setRequestInterception(True)
page.on('request', intercept_request)
page.on('response', intercept_response)

intercept_requestintercept_response相当于是注册的两个回调函数,在浏览器发出请求和获取到请求之前指向这两个函数。

比如可以这样禁止获取图片、多媒体资源和发起 websocket 请求:

async def intercept_request(req):
    """请求过滤"""
    if req.resourceType in ['image', 'media', 'eventsource', 'websocket']:
        await req.abort()
    else:
        await req.continue_()

然后每次获取到请求之后将内容打印出来(这里只打印了fetchxhr类型response 的内容):

async def intercept_response(res):
    resourceType = res.request.resourceType
    if resourceType in ['xhr', 'fetch']:
        resp = await res.text()
        print(resp)

 

from scrapy import signals
import pyppeteer
import asyncio
import os
import time
import json
import tkinter
from scrapy.http import HtmlResponse
from Aliexpress.ConfigDB import RedisDB,RedisPool
import logging
pyppeteer_level = logging.WARNING
logging.getLogger('pyppeteer').setLevel(pyppeteer_level)
logging.getLogger('websockets.protocol').setLevel(pyppeteer_level)
pyppeteer_logger = logging.getLogger('pyppeteer')
pyppeteer_logger.setLevel(logging.WARNING)
# redisconn=RedisDB(db=0)
redisconn=RedisPool(db=0)
pyppeteer.DEBUG = False

def _patch_pyppeteer():
    from typing import Any
    from pyppeteer import connection, launcher
    import websockets.client

    class PatchedConnection(connection.Connection):  # type: ignore
        def __init__(self, *args: Any, **kwargs: Any) -> None:
            super().__init__(*args, **kwargs)
            # the _ws argument is not yet connected, can simply be replaced with another
            # with better defaults.
            self._ws = websockets.client.connect(
                self._url,
                loop=self._loop,
                # the followi
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面是一个使用 `requests` 和 `re` 库编写的爬虫程序,用于爬取指定网页中的图片: ```python import requests import re # 指定要爬取的网页 url = 'https://www.example.com' # 发送请求,获取网页内容 response = requests.get(url) html = response.text # 使用正则表达式匹配图片链接 pattern = r'<img.*?src="(.*?)".*?>' img_urls = re.findall(pattern, html) # 遍历图片链接,依次下载图片 for img_url in img_urls: # 发送请求,获取图片内容 img_response = requests.get(img_url) img_content = img_response.content # 获取图片文件名 img_name = img_url.split('/')[-1] # 保存图片到本地 with open(img_name, 'wb') as f: f.write(img_content) ``` 解释一下上面的程序: 1. 首先指定要爬取的网页的 URL,存储到 `url` 变量中; 2. 然后使用 `requests` 库发送 HTTP 请求,获取网页内容,存储到 `html` 变量中; 3. 使用正则表达式匹配网页中所有的图片链接,存储到 `img_urls` 列表中; 4. 遍历 `img_urls` 列表,依次下载每个图片文件: - 发送 HTTP 请求,获取图片内容,存储到 `img_content` 变量中; - 获取图片文件名,存储到 `img_name` 变量中; - 使用 `with open()` 语句打开文件,将图片内容写入文件中,保存到本地。 请注意,上面的代码只是一个简单的示例,实际应用中还需要加入异常处理、多线程或协程优化等措施,以提高程序的健壮性和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值