点击名片关注 阿尘blog,一起学习,一起成长
本文主要简单介绍一爬虫框scrapy
01
—
简介
1.1 什么是scrapy
1)Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。
2)scrapy用途广泛,可以用于数据挖掘、监测和自动化测试、信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于企业
3)scrapy使用twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。scrapy是由twisted写的一个受欢迎的python事件驱动网络框架,他使用的是非堵塞的异步处理
1.2 使用scrapy有什么好处
1)更容易构建和大规模的抓取项目
2)内置的机制被称为选择器,用于从网站(网页)上提取数据
3)异步处理请求,速度非常快
4)可以使用自动调节机制自动调整爬行速度
5)确保开发人员可访问性
1.3 scrapy主要特点
1)是一个开源、免费使用的网络爬虫框架
2)scrapy生成格式导出如: JSON、CSV、XML
3)内置之处从源代码,使用xpath或者css选择器来提取数据
4)scrapy基于爬虫,允许以自动方式从网页中提取数据
1.4 scrapy优点
1)很容易扩展,速度快,功能强大
2)这是一个跨平台应用程序框架
3)scrapy请求调度和异步处理
4)scrapy附带了一个名为scrapyd的内置服务,允许使用JSON web服务上的项目和控制蜘蛛
5)能够刮削任何网站,即使该网站不具有元素数据访问api
02
—
scrapy基本原理
普通requests爬虫流程
Scrapy爬虫原理
简单描述:
最简单的单个网页爬取流程是: spiders ->scheduler -> downloader -> spiders -> item pipeline
注意!只用当 调度器 中不存在如何request了,整个程序才会停止,也就是说,对于下载失败的url,scrapy也会重新下载。
扫描二维码关注阿尘blog,一起交流学习