scrapy命令行入门学习

Command line tool:

在这里插入图片描述

其中全局命令可以不用进入项目使用项目命令必须进入项目使用

Windows 下创建一个scrapy项目:
打开cmd

scrapy createproject 项目名

如果你想在指定目录创建项目后面可以加上项目路径如:

scrapy createproject myproject c:\\scrapycode

或者是直接进入项目路径直接创建:

c:
cd scrapycode
scrapy createproject myproject 

创建一个spider

scrapy genspider baidu www.baidu.com

参数 -l查看可使用的模板

scrapy genspider -l

在这里插入图片描述
-t指定创建的模板如果对创建的spider有特殊需求的可以使用模板

scrapy genspider -t basic baidu www.baidu.com

在这里插入图片描述
运行spider:

scrapy crawl +spider的名字

查错:

scrapy check

可以检查spider中的语法错误是很好的调试工具

查看项目中所有spider的名称

scrapy list

编辑spider

scrapy edit +spider的名字

此命令不常用一般是创建好spider后在编辑器中打开编辑

fetch
和request、urlopen类似请求url并返回源代码

scrapy fetch http://www.baidu.com

参数

#不生成日志
scrapy fetch --nolog http://www.baidu.com
#返回响应头信息
scrapy fetch --headers http://www.baidu.com
#禁止重定向
scrapy fetch --no-redirect http://www.baidu.com

view
请求一个url并下载然后在浏览器中打开是一个很好的调试工具可以看出网页的数据那些是静态的哪些是ajax加载的

scrapy view http://baidu.com

shell
命令行交互模式可以调试程序

scrapy shell http://baidu.com

打开shell后可以输入如request response.text response response.headers 等命令调试程序还可以测试选择器是否能够选中标签如

response.css('.title::text').extract_first()

parse
解析网页需要进入项目目录

#-c 为回调后面加自己在项目中定义的parse
scrapy parse http://www.baidu.com -c parse

settings
配置信息
比如说我在settings中设置了mongodb的url我可以使用–get来获得它

scrapy settings --get MONGO_URI

-h可以打印帮助信息
runspider

#scrapy runspider +spider的文件名
scrapy runspider spider.py

他与crawl的区别是不用进入项目目录但是需要spider的文件名

version
查看scrapy的版本信息

scrapy version

-v
查看所有依赖库的版本

scrapy version -v

bench
测试性能每分钟可以爬取多少页面

scrapy bench

基本的命令就到这了欢迎大家补充!!!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值