scrapy是通过命令行进行控制的,你可以在命令行中输入一个scrapy,会出现一拍命令。
你也可以通过tree来查看scrapy的目录结构,scrapy.cfg存放的目录被认为是项目的根目录,该文件中包含python模块名的字段定义了项目的设置。下面的代码是我一个爬取天气的爬虫中的.cfg文件。
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# http://doc.scrapy.org/en/latest/topics/scrapyd.html
[settings]
default = weather.settings
[deploy]
#url = http://localhost:6800/
project = weather
一般来说使用scrapy工具的第一件事就是创建您的scrapy项目
scrapy startproject weather
创建了项目之后,可以通过scrapy工具来对其进行控制和管理,有些scrapy命令要求必须在项目中运行,比如crawl,可以通过命令行查看,你可以在项目之外和项目中分别输入scrapy查看有什么不同的。
你可以使用scrapy <command> -h查看命令的作用,也可以通过scrapy -h查看所有可用的命令。
scrapy提供两种类型的命令,一种必须在scrapy项目中运行,另一种则为全局命令。
全局命令
startproject
settings
runspider
shell
fetch
view
version
项目命令
crawl
check
list
edit
parse
genspider
deploy
bench