Scrapy 爬虫框架学习DAY 1

最新推荐文章于 2023-03-02 17:32:01 发布

不安分实验室

最新推荐文章于 2023-03-02 17:32:01 发布

阅读量171

点赞数

分类专栏： Scrapy 文章标签：网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45941367/article/details/115214594

版权

Scrapy 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Scrapy 爬虫框架学习 DAY 1

一、爬虫概要

首先我们要了解什么是爬虫

爬虫：网络爬虫是一种按照一定规则，自动抓取网页信息的程序或脚本。

用一个通俗易懂的比喻就是：如果把互联网比作一张网，那么网络爬虫就可以认为是一个在网上爬来爬去的小虫子，他通过网页的链接地址来寻找网页，通过特定的搜索算法来确定路线。通常从网站的某一个页面开始，爬取网页的内容，找到在网页中的链接地址，然后通过这些链接地址来确定下一个网页，这样一直循环下去，知道把这个网站所有网页都抓取完为止。

那么什么是Scarpy爬虫框架呢，我的个人理解就是：Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，后台也应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

二、爬虫基本原理

在网络上寻找了一个比较好懂的图，见下图。

网络爬虫的基本过程

三、Scrapy爬虫框架

Scrapy 是由五个基本组件组成的，他们分别是

1、调度器（Scheduler）；

调度器，比较好懂的方式就是：把它理解成一个队列，里面放你要爬取的URL（可以是：网址或者是链接），由他确定下一个网页的是什么，同时去除重复的网址（不做重复的操作）。所以我们用户可以根据自己的需求来定制调度器。

2、下载器（Downloader）;

下载器，是所有组件中负担中最大的，它用于高度地下载网络上的资源。Scrapy的下载器代码不会太复杂，但效率高，主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上的。

3、爬虫（Spider）；

爬虫，是用户最关心的部分。我们需要很熟练的了解正则表达式，用于从特定的网页提取自己需要的信息，即所谓的实体（Item）。然后从中提取更多的链接，让爬虫继续爬下一个页面

4、实体管道（Item Pipline）；

实体管道，用于处理爬虫（Sprider）提取的实体。主要功能是持久化实体，验证实体的有效性、清除不需要的信息。

5、Scrapy引擎（Scrapy Engine）；

Scrapy是整个框架的核心。他用来控制调试器、下载器、爬虫。实际上，这个其实就相当于计算机的CPU，它控制着整个流程，是Scrapy的大脑。

不安分实验室

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Scrapy 爬虫框架学习DAY 1

Scarpy 爬虫框架学习全过程一、爬虫概要首先我们要了解什么是爬虫爬虫：网络爬虫是一种按照一定规则，自动抓取网页信息的程序或脚本。用一个通俗易懂的比喻就是：如果把互联网比作一张网，那么网络爬虫就可以认为是一个在网上爬来爬去的小虫子，他通过网页的链接地址来寻找网页，通过特定的搜索算法来确...
复制链接

扫一扫

专栏目录

不安分实验室 CSDN认证博客专家 CSDN认证企业博客

码龄5年

26: 原创

39万+: 周排名

121万+: 总排名

3万+: 访问

: 等级

756: 积分

130: 粉丝

155: 获赞

62: 评论

375: 收藏

私信

关注

热门文章

分类专栏

最新评论

ARM：嵌入式系统之硬件总复习
m0_64874224: cjj你在这儿嘎哈呢
ARM：嵌入式系统之硬件总复习
xingyixing: 师兄，有去年嵌入式期末卷子吗
ARM：嵌入式系统之硬件总复习
jiajiajia433: 金宝学生前来观摩
ARM：嵌入式系统之硬件总复习
m0_62892348: ahnu前来打卡
ARM：嵌入式系统之硬件总复习
qq_39977732: ATPCS/AAPCS： 1.r0-r3用来给子程序传参，返回前无需恢复； 2.r4-r7用来保存局部变量，返回时需要恢复； 3.r12用作子程序保存sp，记作ip； 4.r13用作数据栈指针，记作sp，必须恢复； 5.r14用作连接寄存器，记作lr，若保存了返回地址，可以用作其他用途； 6.r15是程序寄存器，记作pc，不可用于其他用途。异常处理： 1.将pc-4的值保存到相对应异常的lr中 2.将cpsr保存到相对应的异常的spsr 3.自动设置相对的异常的cpsr模式位 4.跳转到相对应异常向量地址执行指令异常返回步骤： 1.通过堆栈恢复通用寄存器 2.恢复cpsr 3.恢复pc，以跳转到中断前的程序的中断处继续执行片外设备中断：初始化片外设备；初始化片外设备中断控制器；初始化vic中断控制器；开cpu中断。中断服务程序编程：处理中断；清片外设备中断，向pend中写1清0；清vic中断，向vicaddress写任意值；中断返回。 timer0： 1.初始化时钟（分频器，选频器） 2.初始化tcntb，tcmpb 3.停止自动装载，使能手动更新 4.使能自动装载，清除手动更新，启动定时器

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不安分实验室 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。