scrapy之selenium补充

我盘代码养你

于 2020-12-22 12:45:40 发布

阅读量81

点赞数

分类专栏： scrapy 文章标签：中间件 selenium python ajax

本文链接：https://blog.csdn.net/qq_34157140/article/details/111532015

版权

scrapy 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

我们在之前已经使用selenium中间件获取了github的cookie进行模拟登陆，但selenium的功能不止于此，我们对一些动态加载的网页，可以使用中间件selenium进行请求，然后将获取到的数据交给引擎

from selenium import webdriver
import time
#自己创建一个响应，不要下载器的响应
from scrapy.http import HtmlResponse
from scrapy import signals


class SeleniumMiddleware(object):

    def process_request(self, request, spider):
        url = request.url

        if 'daydata' in url:
            driver = webdriver.Chrome()

            driver.get(url)
            time.sleep(3)
            data = driver.page_source

            driver.close()

            # 创建响应对象
            res = HtmlResponse(url=url, body=data, encoding='utf-8', request=request)

            return res

我盘代码养你

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy之selenium补充

我们在之前已经使用selenium中间件获取了github的cookie进行模拟登陆，但selenium的功能不止于此，我们对一些动态加载的网页，可以使用中间件selenium进行请求，然后将获取到的数据交给引擎from selenium import webdriverimport time#自己创建一个响应，不要下载器的响应from scrapy.http import HtmlResponsefrom scrapy import signalsclass SeleniumMiddlew
复制链接

扫一扫

专栏目录