Scrapy 命令
全局命令
startproject 新建工程
settings 配置文件
genspider 新建spider
bench 测试命令
runspider
shell
fetch 使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出。
view 在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现。
version scrapy的版本信息
项目命令
crawl 执行spider
check 检查spider
list 列出当前项目中可用的spider
edit
parse 获取给定的URL并使用相应的spider分析处理
常用操作
新建工程:scrapy startproject XXX
新建spider:scrapy genspider XXX “XXX.XXX.XX”
执行spider:scrapy crawl XXX
检查spider:scrapy check XXX
列出当前项目中可用的spider:scrapy list
shell命令
Scrapy shell 是一个交互式的shell,Scrapy shell对于开发爬虫是非常好用的一个测试工具。他可以在未启动spider的情况下尝试及调试爬虫代码。
shelp() - 打印可用对象及快捷命令的帮助列表
fetch(request_or_url) - 根据给定的请求(request)或URL获取一个新的response,并更新相关的对象。
view(response) - 在本机的浏览器打开给定的response。 其会在response的body中添加一个 tag ,使得外部链接(例如图片及css)能正确显示。
在spider中启用shell来查看response
通过 scrapy.shell.inspect_response 函数来实现:
import scrapy