在scrapy与selemium对接结束后，关闭浏览器的方法

最新推荐文章于 2023-03-27 18:27:15 发布

lcqin111

最新推荐文章于 2023-03-27 18:27:15 发布

阅读量698

点赞数 1

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/lcqin111/article/details/107784149

版权

python 同时被 2 个专栏收录

78 篇文章 0 订阅

订阅专栏

爬虫

7 篇文章 0 订阅

订阅专栏

参考https://blog.csdn.net/Hepburn_li/article/details/91039747博客。

一般在DownloaderMiddleware中建立browser对象。例如：

class NewscrawlerDownloaderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    def __init__(self, timeout=None, service_args=[]):
        self.logger = getLogger(__name__)
        self.timeout = timeout
        self.browser = webdriver.Chrome(service_args=service_args)
        self.browser.set_window_size(1400, 700)
        self.browser.set_page_load_timeout(self.timeout)
        self.wait = WebDriverWait(self.browser, self.timeout)

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls(timeout=crawler.settings.get('SELENIUM_TIMEOUT'),
                service_args=crawler.settings.get('CHROME_SERVICE_ARGS'))
        crawler.signals.connect(s.spider_closed, signal=signals.spider_closed)
        return s

在新建立的中间件中需要连接信号才可以完成信号与函数的对接，有点像QT的信号槽机制。

那么，接下来只需要定义self.spider_closed这个函数就可以。

    def spider_closed(self):
        self.browser.quit()

使用browser.quit()来完全退出浏览器对象。

lcqin111

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录