Scrapy是通过 scrapy 命令行工具进行控制的。
默认的Scrapy项目结构
所有的Scrapy项目默认有类似于下边的文件结构:
scrapy.cfg
myproject/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
spider1.py
spider2.py
…
crapy.cfg 存放的目录被认为是 项目的根目录 。该文件中包含python模块名的字段定义了项目的设置。
[settings]
default = tutorial.settings
[deploy]
#url = http://localhost:6800/
project = tutorial
创建项目
使用 scrapy 工具的第一件事就是创建您的Scrapy项目:
scrapy startproject myproject
控制项目
创建一个新的spider:
scrapy genspider mydomain mydomain.com
可用的工具命令(tool commands)
Scrapy提供了两种类型的命令。一种必须在Scrapy项目中运行(针对项目(Project-specific)的命令),另外一种则不需要(全局命令)。全局命令在项目中运行时的表现可能会与在非项目中运行有些许差别(因为可能会使用项目的设定)。
全局命令:
startproject
settings
runspider
shell
fetch
view
version
项目(Project-only)命令:
crawl
check
list
edit
parse
genspider
deploy
bench
自定义项目命令
可以通过 COMMANDS_MODULE 来添加您自己的项目命令。
可以以 scrapy/commands 中Scrapy commands为例来了解如何实现命令