scrapy 命令

1.全局命令

如下:

PS D:\学习资料及空间> scrapy -h
Scrapy 1.5.1 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory
  • fetch:主要用来显示爬虫爬取的过程
  • setting:查看配置信息
  • shell:用来启动Scrapy的交互终端
  • startproject:用来创建项目
  • version:可以直接显示Scrapy版本的相关信息
  • view:可以用来下载某个网页并使用浏览器查看

2.项目命令

任意进入一个Scrapy爬虫项目

查看具体命令,使用scrapy -h

PS D:\学习资料及空间\myfirstpro> scrapy -h
Scrapy 1.5.1 - project: myfirstpro

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  check         Check spider contracts
  crawl         Run a spider
  edit          Edit spider
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  list          List available spiders
  parse         Parse URL (using its spider) and print the results
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy
  • bench:可以测试本地硬件的性能,当运行scrapy bench时,会创建一个本地服务器并会以最大的速度进行爬行,就为了测试本地硬件的性能。可以检测到每分钟能爬多少网页,当我们实际运行项目时,可以参照这个数据进行比较,从而对爬虫项目继续改进和修改。
  • genspider:是一种可以快速创建爬虫项目的方式。使用该命令可以基于享有的模板生成一个新的爬虫文件。
  • PS D:\学习资料及空间\myfirstpro> scrapy genspider -l
    Available templates:
      basic
      crawl
      csvfeed
      xmlfeed

       创建新文件的格式为 scrapy genspider -t 模板 新爬虫名 爬取的域名

       scrapy genspider -d 模板名:可以查看到模板的内容

  • check:爬虫的测试比较麻烦,使用hetong(contract)的方式对爬虫进行测试。使用check命令,就可以实现对摸个爬虫文件进行合同检查
  • crawl:用来启动某个爬虫
  • list:可以列出当前项目中可使用的爬虫文件
  • edit:可以对指定的某个文件进行编辑
  • parse:对指定的url网址进行分析和处理,
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值