使用reactor多线程运行scrapy

最新推荐文章于 2022-05-07 15:56:08 发布

穆洛玄

最新推荐文章于 2022-05-07 15:56:08 发布

阅读量449

点赞数 1

分类专栏： scrapy 文章标签：多线程

本文链接：https://blog.csdn.net/mjp_erhuo/article/details/110544880

版权

scrapy 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

# -*- coding: utf-8 -*-
import threading
from twisted.internet import reactor, defer
from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings


runner = CrawlerRunner(get_project_settings())
@defer.inlineCallbacks
def crawl():
    while True:
        yield runner.crawl("scrapy项目中spider文件名")
    reactor.stop()

def do_job():
    crawl()
    reactor.run()

if __name__ == '__main__':
        thread = []
        for i in range(60):
            t = threading.Thread(target=do_job)
            t.daemon = True  # 设置线程daemon  主线程退出，daemon线程也会推出，即时正在运行
            t.start()
            thread.append(t)
        for j in thread:
            j.join()

代理如上图：执行该文件就可以多线程运行scrapy项目

该文件的路径如图：