关于Flask框架中启动Scrapy爬虫框架时的几种问题的解决

最新推荐文章于 2023-06-07 17:43:24 发布

流夏_

最新推荐文章于 2023-06-07 17:43:24 发布

阅读量4.4k

点赞数 7

分类专栏：运行错误 Python 爬虫 Flask 文章标签： Flask Scrapy ValueError: signal only works Scrapy、crawl指令找不到 returned non-zero exit status

本文链接：https://blog.csdn.net/qq_40279964/article/details/97030555

版权

Python 同时被 3 个专栏收录

20 篇文章 3 订阅

订阅专栏

爬虫

8 篇文章 0 订阅

订阅专栏

运行错误

6 篇文章 0 订阅

订阅专栏

最近开发的爬虫调度系统是由Flask框架提供接口，在Flask中启动Scrapy项目，开发期间遇到了几个问题，网上找找，自己也琢磨了好久，终于顺利解决。问题如下：

一、Scrapy、crawl指令找不到

问题描述：

先看一下我的项目结构，如下：

hydra是Flask项目目录，medical_illness下是Scrapy项目，handler_scrpy是接口文件。

现在要做的就是接口文件收到指令，然后启动scrapy项目，在scrapy项目下的main_illess.py文件是启动spider的，我在接口文件引入了这个文件，然后去运行它，就会报如上错误

Scrapy 1.7.1 - no active project 

Unknown command: crawl Use "scrapy" to see

解决思路：

这是因为，在handler_scrpy中启动main_illess.py时当前工作目录是在Flask项目下：

D:\文档\个人\项目\hydra

并不在scrapy项目目录下，所以报了如上错误。在main_illess.py中做如下修改：

import os
from scrapy import cmdline
from filter.filter_change_path import set_new_path
from .disease import spiders


def start_crawl(spider_name):
    b = 'scrapy crawl '
    c = b + spider_name

    # 获取spiders文件所在的目录,并将工作目录切换到spider所在目录下
    set_new_path(os.path.dirname(spiders.__file__))

    cmdline.execute(c.split())

切换后的工作空间：

D:\文档\个人\项目\hydra\spiders\spider_script\medical_illness\disease\disease\spiders

重点是注释部分，获得导入的spidres所在目录（即scrapy所在目录），然后见工作空间切换到scrapy目录，然后最后一句执行爬虫，启动完爬虫以后需要将工作目录再切换回去（为什么要用到进程，在第二个问题中会讲到）：

# 启动scrapy项目文件
def start_crawler_threads(topic_name, rules, start_url):
    # 通过start_url得到spider名字
    spider_name = get_spider(start_url)

    # 获得当前工作目录(根目录)
    old_path = os.getcwd()

    # 在进程中启动爬虫
    crawl_threads = Process(target=main_illness.start_crawl, args=(spider_name ,))
    crawl_threads.start()

    # 启动完线程以后交给工作目录还原
    set_old_path(old_path)

set_old_path（）、set_new_path（）方法所在文件定义如下：

import os

"""
更改与还原工作目录
"""


def set_new_path(path):
    os.chdir(path)


def set_old_path(path):
    os.chdir(path)

到此就解决找不到scrapy和crawl的问题了。

二、ValueError: signal only works in main thread

ERROR:tornado.application:Exception in callback (<zmq.sugar.socket.Socket object at 0x7f44c4d698d0>, <function wrap.<locals>.null_wrapper at 0x7f44c4d02378>)
Traceback (most recent call last):
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/tornado/ioloop.py", line 888, in start
    handler_func(fd_obj, events)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/tornado/stack_context.py", line 277, in null_wrapper
    return fn(*args, **kwargs)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/zmq/eventloop/zmqstream.py", line 450, in _handle_events
    self._handle_recv()
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/zmq/eventloop/zmqstream.py", line 480, in _handle_recv
    self._run_callback(callback, msg)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/zmq/eventloop/zmqstream.py", line 432, in _run_callback
    callback(*args, **kwargs)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/tornado/stack_context.py", line 277, in null_wrapper
    return fn(*args, **kwargs)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/ipykernel/kernelbase.py", line 283, in dispatcher
    return self.dispatch_shell(stream, msg)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/ipykernel/kernelbase.py", line 233, in dispatch_shell
    self.pre_handler_hook()
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/ipykernel/kernelbase.py", line 248, in pre_handler_hook
    self.saved_sigint_handler = signal(SIGINT, default_int_handler)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/signal.py", line 47, in signal
    handler = _signal.signal(_enum_to_int(signalnum), _enum_to_int(handler))
ValueError: signal only works in main thread

问题描述：

在我成功解决工作空间的问题之后这个问题就紧接着来了，导致以上错误的几个原因，我google了一下，网上也有反映这个错误的，但是按照他们的方法并不能解决我的问题，于是根据这个错误提示，大胆猜测——

解决思路：

“signal仅适用于主线程”，是不是因为在Flask中起动scrapy爬虫，请求flask的接口已经占用了主线程并且阻塞等待爬虫运行，所以再启动Scrapy时就会报ValueError: signal only works in main thread

根据这个思路，再启动Scrapy时，创建一个新的进程，让Scrapy在此进程中的主线程中运行，如下：

# 启动scrapy项目文件
def start_crawler_threads(topic_name, rules, start_url):
    # 通过start_url得到spider名字
    spider_name = get_spider(start_url)

    # 获得当前工作目录(根目录)
    old_path = os.getcwd()

    # 在进程中启动爬虫
    crawl_threads = Process(target=main_illness.start_crawl, args=(spider_name ,))
    crawl_threads.start()

    # 启动完线程以后交给工作目录还原
    set_old_path(old_path)

使用进程后，问题解决