1.全局命令
如下:
PS D:\学习资料及空间> scrapy -h
Scrapy 1.5.1 - no active project
Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
- fetch:主要用来显示爬虫爬取的过程
- setting:查看配置信息
- shell:用来启动Scrapy的交互终端
- startproject:用来创建项目
- version:可以直接显示Scrapy版本的相关信息
- view:可以用来下载某个网页并使用浏览器查看
2.项目命令
任意进入一个Scrapy爬虫项目
查看具体命令,使用scrapy -h
PS D:\学习资料及空间\myfirstpro> scrapy -h
Scrapy 1.5.1 - project: myfirstpro
Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
check Check spider contracts
crawl Run a spider
edit Edit spider
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
list List available spiders
parse Parse URL (using its spider) and print the results
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
- bench:可以测试本地硬件的性能,当运行scrapy bench时,会创建一个本地服务器并会以最大的速度进行爬行,就为了测试本地硬件的性能。可以检测到每分钟能爬多少网页,当我们实际运行项目时,可以参照这个数据进行比较,从而对爬虫项目继续改进和修改。
- genspider:是一种可以快速创建爬虫项目的方式。使用该命令可以基于享有的模板生成一个新的爬虫文件。
-
PS D:\学习资料及空间\myfirstpro> scrapy genspider -l Available templates: basic crawl csvfeed xmlfeed
创建新文件的格式为 scrapy genspider -t 模板 新爬虫名 爬取的域名
scrapy genspider -d 模板名:可以查看到模板的内容
- check:爬虫的测试比较麻烦,使用hetong(contract)的方式对爬虫进行测试。使用check命令,就可以实现对摸个爬虫文件进行合同检查
- crawl:用来启动某个爬虫
- list:可以列出当前项目中可使用的爬虫文件
- edit:可以对指定的某个文件进行编辑
- parse:对指定的url网址进行分析和处理,