带你学习目前非常流行的开源爬虫框架Scrapy

Scrapy安装

官网 https://scrapy.org/

安装方式

在任意操作系统下,可以使用pip安装Scrapy,例如:

$ pip install scrapy

 

为确认Scrapy已安装成功,首先在Python中测试能否导入Scrapy模块:

>>> import scrapy  
>>> scrapy.version_info
(1, 8, 0)

 

Python爬虫、数据分析、网站开发等案例教程视频免费在线观看

https://space.bilibili.com/523606542

Python学习交流群:1039649593

然后,在 shell 中测试能否执行 Scrapy 这条命令:

(base) λ scrapy 
Scrapy 1.8.0 - no active project 
Usage: 
  scrapy <command> [options] [args] 

Available commands: 
  bench Run quick benchmark test
  fetch Fetch a URL using the Scrapy downloader 
  genspider Generate new spider using pre-defined templates 
  runspider Run a self-contained spider (without creating a project) 
  settings Get settings values 
  shell Interactive scraping console 
  startproject Create new project version 
  Print Scrapy version 
  view Open URL in browser, as seen by Scrapy 

  [ more ] More commands available when run from project directory 

Use "scrapy <command> -h" to see more info about a command

 

通过了以上两项检测,说明Scrapy安装成功了。如上所示,我们安装的是当前最新版本1.8.0

注意:

  • 在安装Scrapy的过程中可能会遇到缺少VC++等错误,可以安装缺失模块的离线包
  • 成功安装后,在CMD下运行scrapy出现上图不算真正成功,检测真正是否成功使用 scrapy bench 测试,如果没有提示错误,就代表成功安装

具体Scrapy安装流程参考: http://doc.scrapy.org/en/latest/intro/install.html##intro-install-platform-notes 里面有各个平台的安装方法

全局命令

$ scrapy 
Scrapy 1.7.3 - no active project 
Usage: 
  scrapy <command> [options] [args] 

Available commands: 
  bench Run quick benchmark test 
        ## 测试电脑性能。
  fetch Fetch a URL using the Scrapy downloader 
        ## 将源代码下载下来并显示出来
  genspider Generate new spider using pre-defined templates 
        ## 创建一个新的 spider 文件 
  runspider Run a self-contained spider (without creating a project) 
        ## 这个和通过crawl启动爬虫不同,scrapy runspider 爬虫文件名称 
  settings Get settings values 
        ## 获取当前的配置信息 
  shell Interactive scraping console 
        ## 进入 scrapy 的交互模式 
  startproject Create new project 
        ## 创建爬虫项目。 
  version Print Scrapy version 
  view Open URL in browser, as seen by Scrapy 
        ## 将网页document内容下载下来,并且在浏览器显示出来 

  [ more ] More commands available when run from project directory 

Use "scrapy <command> -h" to see more info about a command

 

项目命令

    • scrapy startproject projectname
      创建一个项目
    • scrapy genspider spidername domain
      创建爬虫。创建好爬虫项目以后,还需要创建爬虫。
    • scrapy crawl spidername
      运行爬虫。注意该命令运行时所在的目录。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值