关于Flask框架中启动Scrapy爬虫框架时的几种问题的解决

8 篇文章 0 订阅
6 篇文章 0 订阅

最近开发的爬虫调度系统是由Flask框架提供接口,在Flask中启动Scrapy项目,开发期间遇到了几个问题,网上找找,自己也琢磨了好久,终于顺利解决。问题如下:

一、Scrapy、crawl指令找不到

问题描述:

先看一下我的项目结构,如下:

hydra是Flask项目目录,medical_illness下是Scrapy项目,handler_scrpy是接口文件。

现在要做的就是接口文件收到指令,然后启动scrapy项目,在scrapy项目下的main_illess.py文件是启动spider的,我在接口文件引入了这个文件,然后去运行它,就会报如上错误

Scrapy 1.7.1 - no active project 

Unknown command: crawl Use "scrapy" to see

解决思路:

这是因为,在handler_scrpy中启动main_illess.py时当前工作目录是在Flask项目下:

D:\文档\个人\项目\hydra

并不在scrapy项目目录下,所以报了如上错误。在main_illess.py中做如下修改:

import os
from scrapy import cmdline
from filter.filter_change_path import set_new_path
from .disease import spiders


def start_crawl(spider_name):
    b = 'scrapy crawl '
    c = b + spider_name

    # 获取spiders文件所在的目录,并将工作目录切换到spider所在目录下
    set_new_path(os.path.dirname(spiders.__file__))

    cmdline.execute(c.split())

切换后的工作空间:

D:\文档\个人\项目\hydra\spiders\spider_script\medical_illness\disease\disease\spiders

重点是注释部分,获得导入的spidres所在目录(即scrapy所在目录),然后见工作空间切换到scrapy目录,然后最后一句执行爬虫,启动完爬虫以后需要将工作目录再切换回去(为什么要用到进程,在第二个问题中会讲到):

# 启动scrapy项目文件
def start_crawler_threads(topic_name, rules, start_url):
    # 通过start_url得到spider名字
    spider_name = get_spider(start_url)

    # 获得当前工作目录(根目录)
    old_path = os.getcwd()

    # 在进程中启动爬虫
    crawl_threads = Process(target=main_illness.start_crawl, args=(spider_name ,))
    crawl_threads.start()

    # 启动完线程以后交给工作目录还原
    set_old_path(old_path)

 

set_old_path()、set_new_path()方法所在文件定义如下:

import os

"""
更改与还原工作目录
"""


def set_new_path(path):
    os.chdir(path)


def set_old_path(path):
    os.chdir(path)

到此就解决找不到scrapy和crawl的问题了。

二、ValueError: signal only works in main thread

ERROR:tornado.application:Exception in callback (<zmq.sugar.socket.Socket object at 0x7f44c4d698d0>, <function wrap.<locals>.null_wrapper at 0x7f44c4d02378>)
Traceback (most recent call last):
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/tornado/ioloop.py", line 888, in start
    handler_func(fd_obj, events)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/tornado/stack_context.py", line 277, in null_wrapper
    return fn(*args, **kwargs)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/zmq/eventloop/zmqstream.py", line 450, in _handle_events
    self._handle_recv()
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/zmq/eventloop/zmqstream.py", line 480, in _handle_recv
    self._run_callback(callback, msg)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/zmq/eventloop/zmqstream.py", line 432, in _run_callback
    callback(*args, **kwargs)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/tornado/stack_context.py", line 277, in null_wrapper
    return fn(*args, **kwargs)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/ipykernel/kernelbase.py", line 283, in dispatcher
    return self.dispatch_shell(stream, msg)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/ipykernel/kernelbase.py", line 233, in dispatch_shell
    self.pre_handler_hook()
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/site-packages/ipykernel/kernelbase.py", line 248, in pre_handler_hook
    self.saved_sigint_handler = signal(SIGINT, default_int_handler)
  File "/mnt/home2/zxm/anaconda3/lib/python3.6/signal.py", line 47, in signal
    handler = _signal.signal(_enum_to_int(signalnum), _enum_to_int(handler))
ValueError: signal only works in main thread

问题描述:

在我成功解决工作空间的问题之后这个问题就紧接着来了,导致以上错误的几个原因,我google了一下,网上也有反映这个错误的,但是按照他们的方法并不能解决我的问题,于是根据这个错误提示,大胆猜测——

解决思路:

“signal仅适用于主线程”,是不是因为在Flask中起动scrapy爬虫,请求flask的接口已经占用了主线程并且阻塞等待爬虫运行,所以再启动Scrapy时就会报ValueError: signal only works in main thread

根据这个思路,再启动Scrapy时,创建一个新的进程,让Scrapy在此进程中的主线程中运行,如下:

# 启动scrapy项目文件
def start_crawler_threads(topic_name, rules, start_url):
    # 通过start_url得到spider名字
    spider_name = get_spider(start_url)

    # 获得当前工作目录(根目录)
    old_path = os.getcwd()

    # 在进程中启动爬虫
    crawl_threads = Process(target=main_illness.start_crawl, args=(spider_name ,))
    crawl_threads.start()

    # 启动完线程以后交给工作目录还原
    set_old_path(old_path)

使用进程后,问题解决

三、subprocess.CalledProcessError: Command '['scrapy', 'crawl', 'zhkw', '-o', 'output.json']' returned non-zero exit status 2.

问题描述:

这个问题是在出现问题二之后,我采用的一个解决方法时报的错,使用subprocess子进程启动爬虫,尝试解决ValueError: signal only works in main thread

问题分析:

subprocess来启动scrapy思路是可行的,只不过在这里并没有执行成功,是因为这是在更改工作空间之前,所以会报错。但是使用此方法会有一个缺陷,虽然再子进程中启动了scrapy但是爬虫依然在阻塞,接口就会一直处于阻塞状态,所以建议使用多进程解决。

具体关于阻塞在问题四中会详细介绍

四、接口调用爬虫就会阻塞

问题描述:

由于本项目是由Flask提供接口来启动爬虫,但是爬虫往往都是运行时间很长,接口肯定是不能一直在等待爬虫运行完才结束

解决思路:

我们都知道进程和线程都是异步执行的,最开始我的解决办法就是使用多线程来启动每个爬虫,然后启动线程之后直接返回,爬虫在线程中继续运行。但是后来遇到了问题二,所以就结合问题二使用多进程来启动爬虫。

 

以上就是对Flask结合Scrapy中遇到的问题的解决,大家看了还有不清楚的地方,可以私信或者评论,我都会尽力解答。

另外,由于本人技术有限,此博客有何不对的地方欢迎大家指正,谢谢。

 

 

  • 6
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值