06_Scrapy爬虫框架

0、前言:

  • 下载Scrapy的过程中报错了,之前我的pip是换过的源的,今天没办法又给conda换了源头,也搞清楚了一个用pip指令下载用的是pip的源,用conda指令下载使用的是Anaconda的源。最终今天是通过conda install scrapy下载的scrapy。
  • 其实换源的目的是为了下载方便一些,如果你不嫌麻烦,可以记下几个常用的源(清华、百度),然后不论是使用pip还是使用conda的时候,都指定一下源,就可以下载了。
  • 带指定源下载的pip指令(以清华源为):pip install package_name -i https://pypi.tuna.tsinghua.edu.cn/simple
  • conda指令(以清华源为):conda install package_name pip -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 注意conda指令是在Anaconda prompt中运行的,pip在cmd和Anaconda prompt中都可以运行。

2、Scrapy框架介绍:

  • 注意:框架的目的是解放生产力,把重复性工作变简单。
  • Scrapy是一个基于Python开发的爬虫框架,用于从网站中爬取结构化数据,该框架提供了非常多爬虫相关的基础组件,架构清晰,可拓展性强,基于Scrapy,我们可以灵活高效的完成各种爬虫需求。

3、使用Scrapy项目初始化:

  • 在pycharm的terminal窗口下,使用命令:scrapy startproject 项目名 创建Scrapy爬虫项目,项目名命名规则遵循变量命名方法,这条指令执行后,就会自动在pycharm中创建一个Scrapy框架,前提是已经在对应环境中装了scrapy。
    在这里插入图片描述

  • 创建python爬虫文件
    在这里插入图片描述

  • 了解创建项目中的各个部分
    在这里插入图片描述

  • 测试执行爬虫:注意有了框架,运行爬虫就需要在终端中用指令:scrapy crawl 爬虫文件名,执行。且每次执行完爬虫都会自动关闭。
    在这里插入图片描述


4、scrapy爬虫框架的使用流程:

  • 框架图:
    在这里插入图片描述

  • 框架工作流程:
    步骤一:引擎从爬虫那里获得初始的爬行请求。
    步骤二:该引擎在调度器中调度请求,并要求对下一个请求进行爬取。
    步骤三:调度器将下一个请求返回给引擎。
    步骤四:引擎通过下载器中间件向下载器发送请求。
    步骤五

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值