Python-Scrapy笔记(一)

1.python爬虫之Scrapy框架了解:

 

①Scrapy Enginc:Scrapy引擎,负责Scrapy运行过程中的数据传递、通讯、信号处理的交通站

②Spider Miiddlcwares(中间件):spider中间件;自定义扩展组件,封装代理、HTTP头组件等(隐藏自己信息的地方)

③Spiders:scrapy 爬虫,负责处理所有的Responses;提取数据,获取URL

④Scheduler:Scrapy调度器;存放URL,负责接收引擎发送过来的Requests请求,将引擎请求的数据进行排队,当引擎需要请求数据时,将请求队列中的数据交给引擎

⑤Item Pipcline:Scrapy 管道;数据队列,封装去重类,存储类的地方,复制处理spider中获取到的数据并进行后期的处理,过滤或者存储

⑥Downloader:Scrapy下载器;负责发送请求并下载数据(数据的解析和下载)

⑦Downloader Middlewares(中间件):下载中间件

 2.Scrap依赖Twisted异步网络框架来处理网络通讯的信息传输

①安装scrapy模块

easy_install scrapy ***pip安装不了采用此方法***

②安装twisted模块:安装此模块之前需要先安装 C++ Build Tool 打包工具:

pip install twisted

***在创建scrap项目的时候报以下错误,需要在安装twisted模块之前安装打包工具***

--1.C++ Build Tool 打包工具地址:https://blogs.msdn.microsoft.com/pythonengineering/2016/04/11/unable-to-find-vcvarsall-bat/

--2.下载安装打包工具后安装twisted模块报以下错误

***解决方案***

--打开:C:\Program Files (x86)\Windows Kits\8.1\bin\x86地址,复制两个文件:rcdll.dll、rc.exe 到:C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\bin路径下,重新执行:pip install twisted即可安装

③安装pyasnl-modules模块:

pip install pyasnl-modules

***要成功创建scrapy爬虫项目,以上3个模块库是必须安装,其他的缺什么装什么就好***

转载于:https://www.cnblogs.com/yangzhuanzheng/articles/10154581.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值