Scrapy的启动方式介绍

最新推荐文章于 2024-08-08 18:42:02 发布

留不住的人

最新推荐文章于 2024-08-08 18:42:02 发布

阅读量833

点赞数 7

分类专栏： Python爬虫开发文章标签： scrapy

本文链接：https://blog.csdn.net/manba_yqq/article/details/136424913

版权

Python爬虫开发专栏收录该内容

41 篇文章 0 订阅

订阅专栏

本文详细介绍了Scrapy框架的两种启动方式：通过命令行使用`scrapycrawl`和`scrapyrunspiders`，以及通过Python脚本使用CrawlerProcess、CrawlerRunner进行启动。还提醒了检查robots.txt文件的注意事项。

摘要由CSDN通过智能技术生成

Scrapy_启动方式介绍

Scrapy启动的方式有多种方式：

Scrapy命令运行
- 运行环境
  - 命令行:cmd/powershell/等等

运行Python脚本
- 运行环境
  - 命令行:cmd/powershell/等等
  - 编辑器：VSCode/PyCharm等等

注意

运行程序之前，要确认网站是否允许爬取robots.txt 文件

Scrapy_命令启动爬虫

1 scrapy命令

scrapy框架提供了对项目的命令scrapy ，具体启动项目命令格式如下：

1.2 方法1

scrapy crawl 爬虫名

注意

这的爬虫名是爬虫文件中name属性的值

问题

命令无法启动

解决方案

切换到项目目录中，运行即可

1.2 方法2

scrapy runspider spider_file.py

注意

这是爬虫文件的名字
要指定到spider文件夹

Scrapy_脚本启动爬虫

Scrapy为开发者设置好了启动好的对象。因此，我们通过脚本即可启动Scrapy项目

1 运行脚本

在项目的目录下，创建脚本，比如项目名为：scrapy01，创建脚本的路径为scrapy01\scrapy01\脚本.py

2 脚本

使用cmdline

from scrapy.cmdline import execute
execute(['scrapy', 'crawl', '爬虫名字'])

使用CrawlerProcess

from scrapy.crawler import CrawlerProcess
from spiders.baidu import BaiduSpider


process = CrawlerProcess()
process.crawl(BaiduSpider)
process.start()

使用CrawlerRunner

from twisted.internet import reactor
from spiders.baidu import BaiduSpider
from spiders.taobao import TaoBaoSpider
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging


configure_logging() # 开启日志出输出
runner = CrawlerRunner()
runner.crawl(BaiduSpider)
runner.crawl(TaoBaoSpider)
d = runner.join()
d.addBoth(lambda _: reactor.stop())
reactor.run()