scrapy是为持续运行设计的专业爬虫框架,scrapy的很多操作都用命令行实现
1.scrapy -h
2.scrapy命令行格式:>scrapy [options][args]
3.scrapy常用命令:
startproject—创建一个新工程—scrapy startproject [dir]
genspider—创建一个爬虫—scrapy genspider [options]
settings—获得爬虫配置—scrapy settings [options]
crawl—运行一个爬虫—scrapy crawl
list—列出工程中所有爬虫—scrapy list
shell—启动url调试命令行—scrapy shell [url]
在scrapy框架下,一个工程是一个最大的单元,一个工程相当于一个大的scrapy框架,在scrapy框架中可以有多个爬虫,每个爬虫相当于框架中的一个spider模块