Python-Scrapy框架简介

点击名片关注 阿尘blog,一起学习,一起成长

本文主要简单介绍一爬虫框scrapy

01

简介

1.1 什么是scrapy

1)Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。

2)scrapy用途广泛,可以用于数据挖掘、监测和自动化测试、信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于企业

3)scrapy使用twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。scrapy是由twisted写的一个受欢迎的python事件驱动网络框架,他使用的是非堵塞的异步处理

1.2 使用scrapy有什么好处

1)更容易构建和大规模的抓取项目

2)内置的机制被称为选择器,用于从网站(网页)上提取数据

3)异步处理请求,速度非常快

4)可以使用自动调节机制自动调整爬行速度

5)确保开发人员可访问性

1.3 scrapy主要特点

1)是一个开源、免费使用的网络爬虫框架

2)scrapy生成格式导出如: JSON、CSV、XML

3)内置之处从源代码,使用xpath或者css选择器来提取数据

4)scrapy基于爬虫,允许以自动方式从网页中提取数据

1.4 scrapy优点

1)很容易扩展,速度快,功能强大

2)这是一个跨平台应用程序框架

3)scrapy请求调度和异步处理

4)scrapy附带了一个名为scrapyd的内置服务,允许使用JSON web服务上的项目和控制蜘蛛

5)能够刮削任何网站,即使该网站不具有元素数据访问api

02


scrapy基本原理

普通requests爬虫流程

662fcd4cdeae35d4461148ca10a11220.png

Scrapy爬虫原理

74190a239e767c286250c817f3c9500f.png

简单描述:

41cba8ae3628142a58f5cc6dc7803077.png

0314f5e523f113804a582c3264f8c0dd.png

最简单的单个网页爬取流程是: spiders ->scheduler -> downloader -> spiders -> item pipeline

注意!只用当 调度器  中不存在如何request了,整个程序才会停止,也就是说,对于下载失败的url,scrapy也会重新下载。

扫描二维码关注阿尘blog,一起交流学习

2626023a148d5fd7acb9f92d42d4fd3f.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是阿尘呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值