Python爬虫
菜鸟闯天下zxl
这个作者很懒,什么都没留下…
展开
-
Python爬虫了解
定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。爬虫的由来 随着网络的发展,万维网成为大量信息的载体,...原创 2018-04-24 15:18:22 · 311 阅读 · 0 评论 -
Python爬虫之Ssrapy架构了解
下面是Scrapy架构图,包括组件以及在系统中发生的数据流的概览。组件Scrapy Engine引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。调度器Scheduler调度器从引擎接受request并将它们入队,以便之后引擎请求他们时提供给引擎。下载器Downloader下载器负责获取页面数据并提供给引擎,而后提供给spider。SpidersSpider是用于分析respo...原创 2018-04-24 15:19:52 · 613 阅读 · 0 评论