Scrapy--命令行工具

①startproject ——全局命令
在当前路径下创建一个名为myproject的·scrapy项目
语法:scrapy startproject myproject

②genspider ——-需要项目
在当前项目中创建spider 仅仅是创建spider 的一种快捷方法,可以使用提前定义好的模板来生成spider
语法:scrapy genspider name domain.com
这里domin.com为域名、要爬取的范围,name为spider(蜘蛛)名

③crawl ——-需要项目
使用spider进行爬取
语法:scrapy crawl name

④check ——-需要项目
用于检查错误
语法:scrapy check

⑤list ——-需要项目
用于列出当前项目中所有可用的spider。在命令行中每行输出一个spider。
语法:scrapy list

⑥edit ——需要项目
使用EDITOR 中设定的编辑器编辑给定的spider(一般都是选择其他工具比如IDLE等进行编写和调试)
语法:scrapy edit name

⑦fetch ——不需要项目
使用Scrapy下载器下载给定的URL,并将页面内容送到标准输出
使用该命令来查看spider如何获取某个特定页面-网页源码
语法:scrapy fetch --nolog URL

⑧view ——不需要项目
请求URL,把它的网页源码保存成文件,并打开网页
语法:scrapy view URL

⑨shell ——-不需要项目
语法:scrapy shell URL
进入URL进入交互模式,在未启动spider的情况下尝试、测试或调试爬取代码。其会自动创建Response 对象和Selector 对象,同时会有一个sel 对象。可以调用例如:response.bodysel.xpath()

⑩parse ——=需要项目
获取给定的URL并使用相应的spider分析处理
语法:scrapy parse URL

11 runspider ——-不需要项目
在未创建项目的情况下,运行一个编写在Python文件中的spider,与crawl的区别是runsider运行的是文件的名称+拓展名
语法:scrapy runspider <spider_file>.py

12 version ———-不需要项目
输出Scrapy的版本。配合-v 运行时,该命令同时输出Python,Twisted以及平台信息,方便bug提交
语法:scrapy version
语法:scrapy version -v

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值