java启动scrapy爬虫_如何用脚本方式启动scrapy爬虫

最新推荐文章于 2024-06-27 09:50:35 发布

罗神抓妖记

最新推荐文章于 2024-06-27 09:50:35 发布

阅读量702

点赞数

文章标签： java启动scrapy爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31664931/article/details/114796982

版权

本文介绍了如何在Java中通过Python脚本启动Scrapy爬虫，提供了多种方法，包括使用cmdline模块、os.system、subprocess.Popen等。重点讨论了Scrapy的CrawlerRunner和CrawlerProcess，它们允许在编程方式下启动爬虫，尤其适合在Twisted异步网络库中使用。文中展示了不同场景下使用这两个工具的示例，包括单个和多个爬虫的启动，并强调了如何在Scrapy框架中启动pipeline和管理Twisted reactor。

摘要由CSDN通过智能技术生成

众所周知，直接通过命令行scrapy crawl yourspidername可以启动项目中名为yourspidername的爬虫。在python脚本中可以调用cmdline模块来启动命令行：

$ cat yourspider1start.py

from scrapy import cmdline

# 方法 1

cmdline.execute('scrapy crawl yourspidername'.split())

# 方法 2

sys.argv = ['scrapy', 'crawl', 'down_info_spider']

cmdline.execute()

# 方法 3, 创建子进程执行外部程序。方法仅仅返回外部程序的执行结果。0表示执行成功。

os.system('scrapy crawl down_info_spider')

# 方法 4

import subprocess

subprocess.Popen('scrapy crawl down_info_spider')

其中，在方法3、4中，推荐subprocess

subprocess module intends to replace several other, older modules and functions, such as:

os.system

os.spawn*

os.popen*

popen2.*

commands.*

通过其返回值的poll方法可以判断子进程是否执行结束

我们也可以直接通过shell脚本每隔2秒启动所有爬虫：

$ cat star

最低0.47元/天解锁文章

罗神抓妖记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java启动scrapy爬虫_如何用脚本方式启动scrapy爬虫

众所周知，直接通过命令行scrapy crawl yourspidername可以启动项目中名为yourspidername的爬虫。在python脚本中可以调用cmdline模块来启动命令行：$ cat yourspider1start.pyfrom scrapy import cmdline# 方法 1cmdline.execute('scrapy crawl yourspidername'.s...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。