scrapy
learn every day,consist
花想容~Bxy
永远不要只满足于世界的表象,要敢于探寻未知的可能。
展开
-
scrapy的流程原理
Scrapy 特点:使用了Twisted异步网络来处理网络通讯,整体的架构Scrapy 主要包括了以下的组件引擎(scrapy) 用来处理整个系统的数据流处理,触发事务(框架核心) 调度器(scheduler) 用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回,可以想象成一个URL(抓取网页上的网址)的优先队列,由他来决定下一个要抓取的网址是什么,同事去掉重复的网...原创 2019-09-07 22:49:46 · 223 阅读 · 0 评论 -
如何快速的使用scrapy
了解了scrapy的基本架构之后,会发现,没有实战好像并不是懂它的原理,想要写一个爬虫尚且还是有点问题。下面介绍一下它的基本写法,在settings.py中设置配置文件,在里面主要写的是并发数,和延迟下载,以及请求头部的信息起到了全局调用的效果。middlewares中间件,这里面的代码可以删除,设置代理ip和随机的请求头,因为爬虫每次访问网站之前都会路过这个类,经过筛选好的ip就...原创 2019-09-08 22:48:30 · 210 阅读 · 0 评论 -
scrapy使用代理ip的报错问题!!!
当我用scrapy使用代理爬取网站的时候,出现了一些错误,想要分享一下。第一个出错:Connection to the other side was lost in a non-clean fashion: Connection lost.当我搜索这个时候,解决方案便是在seetings.py中增加user-agent。但毕竟bug这种东西千奇百怪,回到正题,我使用了代理,如果是...原创 2019-09-10 13:01:08 · 11796 阅读 · 2 评论