【重磅推荐】在Pycharm中调试scrapy爬虫的两种方法（有坑，务必注意）

最新推荐文章于 2022-02-04 01:47:38 发布

weixin_43343144

最新推荐文章于 2022-02-04 01:47:38 发布

阅读量1.1k

点赞数 1

分类专栏： Scrapy python语言

本文链接：https://blog.csdn.net/weixin_43343144/article/details/87886148

版权

python语言同时被 2 个专栏收录

81 篇文章 1 订阅

订阅专栏

Scrapy

15 篇文章 0 订阅

订阅专栏

第二种方式：参考链接：https://www.jianshu.com/p/6f7cf38d5792

pycharm调试scrapy常用的命令配置：

scrapy crawl <scrapy_name> （scrapy_name不是文件名，而是Spider的属性name的值）

scrapy runspider scrapy_first/spider/book.py

第一种模式（常用模式）.使用scrapy.cmdline的execute方法

首先，在项目文件scrapy.cfg的同级建立main.py文件（注意，必须是同级建立），在其中键入如下代码：
在其余爬虫文件中设置断点后，运行main.py,即可实现在pycharm中的调试。

from scrapy.cmdline import execute
import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

单文件调试模式一：runspider+需要执行的spider的name.py文件
execute(['scrapy', 'runspider', 'scrapy_first/spiders/book.py'])

单文件调试模式二：crawl+需要执行的spider_name！！
这里的spider_name不是文件名,而是继承scrapy.spiders.Spider子类的name属性名字(必须是唯一的)
# execute(['scrapy', 'crawl', "spider_name"])
execute(['scrapy', 'crawl', 'test'])

class Test1Spider(Spider):

    name属性就是spider_name,【scrapy crawl spider_name】执行的文件名(必须是唯一)
    name = 'test'
 
    def parse(self, response):
        pass

weixin_43343144

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【重磅推荐】在Pycharm中调试scrapy爬虫的两种方法（有坑，务必注意）

第二种方式：参考链接：https://www.jianshu.com/p/6f7cf38d5792 pycharm调试scrapy常用的命令配置：scrapy crawl &lt;scrapy_name&gt; （scrapy_name不是文件名，而是Spider的属性name的值）scrapy runspider scrapy_first/spider/book.py第一种模...
复制链接

扫一扫