scrapy 命令

最新推荐文章于 2024-04-20 22:34:43 发布

酸乳酸乳

最新推荐文章于 2024-04-20 22:34:43 发布

阅读量414

点赞数

分类专栏： python网络爬虫

本文链接：https://blog.csdn.net/qq_41359265/article/details/84713003

版权

python网络爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.全局命令

如下：

PS D:\学习资料及空间> scrapy -h
Scrapy 1.5.1 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

fetch：主要用来显示爬虫爬取的过程
setting：查看配置信息
shell：用来启动Scrapy的交互终端
startproject：用来创建项目
version：可以直接显示Scrapy版本的相关信息
view：可以用来下载某个网页并使用浏览器查看

2.项目命令

任意进入一个Scrapy爬虫项目

查看具体命令，使用scrapy -h

PS D:\学习资料及空间\myfirstpro> scrapy -h
Scrapy 1.5.1 - project: myfirstpro

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  check         Check spider contracts
  crawl         Run a spider
  edit          Edit spider
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  list          List available spiders
  parse         Parse URL (using its spider) and print the results
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

bench：可以测试本地硬件的性能，当运行scrapy bench时，会创建一个本地服务器并会以最大的速度进行爬行，就为了测试本地硬件的性能。可以检测到每分钟能爬多少网页，当我们实际运行项目时，可以参照这个数据进行比较，从而对爬虫项目继续改进和修改。
genspider：是一种可以快速创建爬虫项目的方式。使用该命令可以基于享有的模板生成一个新的爬虫文件。

PS D:\学习资料及空间\myfirstpro> scrapy genspider -l
Available templates:
  basic
  crawl
  csvfeed
  xmlfeed

创建新文件的格式为 scrapy genspider -t 模板新爬虫名爬取的域名

scrapy genspider -d 模板名：可以查看到模板的内容

check：爬虫的测试比较麻烦，使用hetong（contract）的方式对爬虫进行测试。使用check命令，就可以实现对摸个爬虫文件进行合同检查
crawl：用来启动某个爬虫
list：可以列出当前项目中可使用的爬虫文件
edit：可以对指定的某个文件进行编辑
parse：对指定的url网址进行分析和处理，

酸乳酸乳

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
scrapy 命令

1.全局命令如下：PS D:\学习资料及空间&gt; scrapy -hScrapy 1.5.1 - no active projectUsage: scrapy &lt;command&gt; [options] [args]Available commands: bench Run quick benchmark test fetch ...
复制链接

扫一扫

专栏目录