Scrapy_启动方式介绍
Scrapy启动的方式有多种方式:
-
Scrapy命令运行
-
运行环境
- 命令行:cmd/powershell/等等
-
-
运行Python脚本
-
运行环境
- 命令行:cmd/powershell/等等
- 编辑器:VSCode/PyCharm等等
-
注意
运行程序之前,要确认网站是否允许爬取
robots.txt
文件
Scrapy_命令启动爬虫
1 scrapy命令
scrapy框架提供了对项目的命令scrapy ,具体启动项目命令格式如下:
1.2 方法1
scrapy crawl 爬虫名
注意
这的爬虫名是爬虫文件中name属性的值
问题
命令无法启动
解决方案
切换到项目目录中,运行即可
1.2 方法2
scrapy runspider spider_file.py
注意
- 这是爬虫文件的名字
- 要指定到spider文件夹
Scrapy_脚本启动爬虫
Scrapy为开发者设置好了启动好的对象。因此,我们通过脚本即可启动Scrapy项目
1 运行脚本
在项目的目录下,创建脚本,比如项目名为:scrapy01,创建脚本的路径为scrapy01\scrapy01\脚本.py
2 脚本
- 使用cmdline
from scrapy.cmdline import execute
execute(['scrapy', 'crawl', '爬虫名字'])
- 使用CrawlerProcess
from scrapy.crawler import CrawlerProcess
from spiders.baidu import BaiduSpider
process = CrawlerProcess()
process.crawl(BaiduSpider)
process.start()
- 使用CrawlerRunner
from twisted.internet import reactor
from spiders.baidu import BaiduSpider
from spiders.taobao import TaoBaoSpider
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging
configure_logging() # 开启日志出输出
runner = CrawlerRunner()
runner.crawl(BaiduSpider)
runner.crawl(TaoBaoSpider)
d = runner.join()
d.addBoth(lambda _: reactor.stop())
reactor.run()
3 运行
命令行运行
python 脚本.py
VSCode运行
右键脚本编辑区空白处==> run python file in terminal(运行python文件在命令行)
VSCode调试运行
打开脚本文件 ==> 选择调试运行