前言
最近闲来无事,在使用scrapy写爬虫时发现自己在终端中却只会创建项目和运行scrapy shell,后来查看了一些scapy命令行的官方文档,发现其中几个还是挺有意思的。scrapy命令行官方文档
命令行介绍
- scrapy -h 显示可用的命令行工具
scrapy -h # 可显示所有可用的命令
- 创建项目,创建完成之后可用tree命令查看一下目录结构
1. 创建项目: scrapy startproject myproject[project_dir]
(1) 创建项目之后需要进入项目中 cd myproject
(2) 进入项目中创建一个spider: scrapy genspider mydomain mydomain.com
- check:检查程序用有没有错误, 没有则返回ok
语法: scrapy check [-l] <spider>
- list: 返回所有可执行scrapy文件
语法: scrapy list
-
edit: 编辑文件 # 用处不大且操作繁琐,还不如再ide里编辑呢
语法: scrapy edit <spider>
-
fetch: 输出log文件,返回网页源代码
语法:scrapy fetch <url>
-view: 打开一个url地址并将它下载下来,可做调试
语法: scrapy view <url>
- shell:scrapy shell则是一个类似于ipython的交互式环境,其中里面的response则为返回的响应结果,可调用多种方法
语法: scrapy shell <url>
response中的方法:
- parse: 获取给定的URL并使用处理它的spider解析它,使用与–callback选项一起传递的方法,如果没有给定,则解析。 # 需要再项目环境下执行
语法: scrapy parse <url> [options]
示例:
返回结果:
-settins : 在scrapy settings中获取值
语法: scrapy settings [options]
- runspider: 进入到项目目录中,运行spider文件
语法: scrapy runspider <spider_file.py>
- version:查看当前版本
语法: scrapy version
scrapy version -v #查看所有所属依赖库的版本
- bench:测试当前每分钟的抓取效率
语法: scrapy bench # 页面/每分钟
小结
以上就是scrapy命令行的大部分内容了,要是想要更加深入的了解scrapy框架,可以去仔细的观看scrapy的官方文档,一定会让你受益匪浅。scrapy官方文档