scrapy运行爬虫的几种方式

最新推荐文章于 2022-09-12 03:39:42 发布

神秘的doge

最新推荐文章于 2022-09-12 03:39:42 发布

阅读量1.1k

点赞数

文章标签： python

原文链接：https://www.zhihu.com/question/266754550

版权

1.开启多个命令行，分别执行scrapy cralw xxxx
2.编写一个脚本，写入以下代码，执行工程下的所有爬虫：

# -*- coding: utf-8 -*-
# @Time    : 25/12/2016 5:35 PM
# @Author  : ddvv
# @Site    :
# @File    : run.py
# @Software: PyCharm

from scrapy.utils.project import get_project_settings
from scrapy.crawler import CrawlerProcess

def main():
    setting = get_project_settings()
    process = CrawlerProcess(setting)
    didntWorkSpider = ['sample']

    for spider_name in process.spiders.list():
        if spider_name in didntWorkSpider :
            continue
        print("Running spider %s" % (spider_name))
        process.crawl(spider_name)
    process.start()

3.使用scrapyd，部署爬虫，通过scrapyd的API调用爬虫
4.推荐使用spiderkeeper或者gerapy，这两个提供的WebUI都很好用，个人更喜欢spiderkeeper一些，因为可以定时运行爬虫。如图:

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

神秘的doge CSDN认证博客专家 CSDN认证企业博客

码龄8年

8: 原创

31万+: 周排名

191万+: 总排名

2万+: 访问

: 等级

133: 积分

27: 粉丝

28: 获赞

1: 评论

164: 收藏

私信

关注

热门文章

分类专栏

网络知识

最新评论

【爬虫】最全！selenium和pyppeteer看这一篇文章就够
CSDN-Ada助手: 一定要坚持创作更多高质量博客哦, 小小红包, 以资鼓励, 更多创作活动请看: 新人首创任务挑战赛: https://marketing.csdn.net/p/90a06697f3eae83aabea1e150f5be8a5?utm_source=csdn_ai_ada_redpacket 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 生物识别技术能否成为应对安全挑战的绝佳选择？: https://activity.csdn.net/creatActivity?id=10411?utm_source=csdn_ai_ada_redpacket 全部创作活动: https://mp.csdn.net/mp_blog/manage/creative?utm_source=csdn_ai_ada_redpacket
【PyCharm中常用的快捷键和操作】
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。