Scrapy交互命令

一、scrapy命令

安装完成之后,直接命令行scrapy,就可以看到scrapy的命令参数。

scrapy命令

二、startproject与genspider

使用startproject参数,可以创建项目框架。

scrapy strartproject project-name

使用startproject创建项目之后,就可以使用genspider来生成爬虫了。

# 可以使用 -h查看genspider命令的子命令
scrapy genspider -h
# 参数分别是爬虫名字,和域名
scrapy genspider spider-name baidu.com
# 还可以指定-t参数指定使用的模板
scrapy genspider -t crawl spider-name baidu.com
# -l参数能够查看有那些模板
scrapy genspider -l

生成Spider

三、runspider与crawl

crawl是运行项目,runspider是运行文件

# 运行项目参数是spider设置dname
scrapy crawl spider-name
# 运行文件
scrapy runspider scrapy.py

四、shell

shell非常实用,主要用于调试,我们一般爬起一个网页的时候基本都要先分析一下网页的结构。

shell子命令可以不用写代码,直接帮我们构造scrapy中的常用对象,我们可以使用这些对象来执行测试。

scrapy shell https://www.baidu.com/
response.css('li.next a::attr("href")').extract_first()

Scrapy交互shell

五、fetch与view

fetch是获取指定连接的内容,view不仅仅获取内容,并且使用浏览器打开。

# 获取html
scrapy fetch https://www.baidu.com/
# 获取html并重定向到指定文件
scrapy fetch https://www.baidu.com/ >> baidu.txt
# 保存为文件并使用浏览器打开
scrapy view https://www.baidu.com/

六、settings

查看配置

scrapy settings --get DOWNLOAD_DELAY
scrapy settings --get BOT_NAME

七、version

查看scrapy版本

scrapy version
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值