爬虫 - Scrapy动态加载案例

最新推荐文章于 2024-08-07 16:07:19 发布

学习中的小菜鸟.

最新推荐文章于 2024-08-07 16:07:19 发布

阅读量444

点赞数

分类专栏：爬虫 Scrapy

本文链接：https://blog.csdn.net/qq_33962481/article/details/116517997

版权

selenium python

爬虫同时被 2 个专栏收录

30 篇文章 0 订阅

订阅专栏

Scrapy

10 篇文章 0 订阅

订阅专栏

文章目录

一、动态加载思路
二、使用步骤
- 1. 使用selenium实例化浏览器对象
- 1.下载的middleware

一、动态加载思路

使用selenium结合scrapy使用, 篡改响应数据, 得到动态加载的数据, 返回给spider

二、使用步骤

1. 使用selenium实例化浏览器对象

因为selenium实例化浏览器对象只需要被执行一次, 所以把创建浏览器对象的方法写到爬虫模块

from selenium import  webdriver

class WangyiSpider(scrapy.Spider):
    pro = webdriver.Chrome("D:\scWorkSpace\chromedriver.exe")

1.下载的middleware

from time import sleep

from scrapy import signals

# useful for handling different item types with a single interface
from itemadapter import is_item, ItemAdapter
from scrapy.http import HtmlResponse


class WangyiproDownloaderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    def process_request(self, request, spider):

        return None

    def process_response(self, request, response, spider):
    	# 获取在爬虫类中定义的浏览器对象
        pro = spider.pro
        if request.url in spider.models_urls:
        	# 基于selenium获取动态加载数据
            pro.get(request.url)
            sleep(3)
            page_text = pro.page_source
            new_response = HtmlResponse(url=request.url, body=page_text, encoding='utf-8', request=request)
            return new_response
        else:
            return response

spider是爬虫对象, 可以通过spider.属性获取到爬虫模块创建的对象和属性.

学习中的小菜鸟.

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫 - Scrapy动态加载案例

文章目录一、动态加载思路二、使用步骤1. 使用selenium实例化浏览器对象1.下载的middleware一、动态加载思路使用selenium结合scrapy使用, 篡改响应数据, 得到动态加载的数据, 返回给spider二、使用步骤1. 使用selenium实例化浏览器对象因为selenium实例化浏览器对象只需要被执行一次, 所以把创建浏览器对象的方法写到爬虫模块from selenium import webdriverclass WangyiSpider(scrapy.Spid
复制链接

扫一扫

专栏目录