python爬虫运行_Python爬虫:Scrapy从脚本运行爬虫的5种方式!

16657c50-7c26-45a8-a573-e6f1c7a58b2f

e85e051f4f5c485e9438263740c43cb9

测试环境

6e986fdeeed24e9e834ac38e909a77cc

一、命令行运行爬虫

1、编写爬虫文件 baidu.py

5648a163476f472881931a5adfa5c0c6

2、运行爬虫(2种方式)

470778c58d044cd396f4910c0c95e4ac

二、文件中运行爬虫

1、cmdline方式运行爬虫

1999230359314066a86ebc464f363fd7

2、CrawlerProcess方式运行爬虫

687c1dc7996c40adb07f7d8aef78fc37

3、通过CrawlerRunner 运行爬虫

6d1495d00e924b87935e81eb25ab39cb

三、文件中运行多个爬虫

项目中新建一个爬虫 SinaSpider

0bd977d1b89f415f8f6adbdc932c252d

1、cmdline方式不可以运行多个爬虫

如果将两个语句放在一起,第一个语句执行完后程序就退出了,执行到不到第二句

7fed5d8f603a4b288787297dfda73c92

不过有了以下两个方法来替代,就更优雅了

2、CrawlerProcess方式运行多个爬虫

备注:爬虫项目文件为:

scrapy_demo/spiders/baidu.py

scrapy_demo/spiders/sina.py

73e470292793466cbfdc975895a1e6dd

此方式运行,发现日志中中间件只启动了一次,而且发送请求基本是同时的,说明这两个爬虫运行不是独立的,可能会相互干扰

3、通过CrawlerRunner 运行多个爬虫

90ebd82b19564b66b43449f5e0b1be30

此方式也只加载一次中间件,不过是逐个运行的,会减少干扰,官方文档也推荐使用此方法来运行多个爬虫

总结

003e12220b644d2bb08695497f2b4ccd

cmdline.execute 运行单个爬虫文件的配置最简单,一次配置,多次运行

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值