python爬虫运行_Python爬虫:Scrapy从脚本运行爬虫的5种方式！

最新推荐文章于 2023-09-14 15:49:27 发布

weixin_39532466

最新推荐文章于 2023-09-14 15:49:27 发布

阅读量271

点赞数

文章标签： python爬虫运行

16657c50-7c26-45a8-a573-e6f1c7a58b2f

e85e051f4f5c485e9438263740c43cb9

测试环境

6e986fdeeed24e9e834ac38e909a77cc

一、命令行运行爬虫

1、编写爬虫文件 baidu.py

5648a163476f472881931a5adfa5c0c6

2、运行爬虫（2种方式）

470778c58d044cd396f4910c0c95e4ac

二、文件中运行爬虫

1、cmdline方式运行爬虫

1999230359314066a86ebc464f363fd7

2、CrawlerProcess方式运行爬虫

687c1dc7996c40adb07f7d8aef78fc37

3、通过CrawlerRunner 运行爬虫

6d1495d00e924b87935e81eb25ab39cb

三、文件中运行多个爬虫

项目中新建一个爬虫 SinaSpider

0bd977d1b89f415f8f6adbdc932c252d

1、cmdline方式不可以运行多个爬虫

如果将两个语句放在一起，第一个语句执行完后程序就退出了，执行到不到第二句

7fed5d8f603a4b288787297dfda73c92

不过有了以下两个方法来替代，就更优雅了

2、CrawlerProcess方式运行多个爬虫

备注：爬虫项目文件为：

scrapy_demo/spiders/baidu.py

scrapy_demo/spiders/sina.py

73e470292793466cbfdc975895a1e6dd

此方式运行，发现日志中中间件只启动了一次，而且发送请求基本是同时的，说明这两个爬虫运行不是独立的，可能会相互干扰

3、通过CrawlerRunner 运行多个爬虫

90ebd82b19564b66b43449f5e0b1be30

此方式也只加载一次中间件，不过是逐个运行的，会减少干扰，官方文档也推荐使用此方法来运行多个爬虫

总结

003e12220b644d2bb08695497f2b4ccd

cmdline.execute 运行单个爬虫文件的配置最简单，一次配置，多次运行

weixin_39532466

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫运行_Python爬虫:Scrapy从脚本运行爬虫的5种方式！

测试环境一、命令行运行爬虫1、编写爬虫文件 baidu.py2、运行爬虫（2种方式）二、文件中运行爬虫1、cmdline方式运行爬虫2、CrawlerProcess方式运行爬虫3、通过CrawlerRunner 运行爬虫三、文件中运行多个爬虫项目中新建一个爬虫 SinaSpider1、cmdline方式不可以运行多个爬虫如果将两个语句放在一起，第一个语句执行完后程序就退出了，执行到不到第二句不过有...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。