Scrapy 爬虫框架初体验一 —— 网络爬虫及其框架介绍

smilejiasmile

于 2021-09-01 16:11:17 发布

阅读量287

点赞数

CC 4.0 BY-SA版权

分类专栏： # 网络爬虫技术锦集文章标签：爬虫 python scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smilejiasmile/article/details/120041272

网络爬虫技术锦集专栏收录该内容

9 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Scrapy爬虫框架的基本概念，包括网络爬虫的定义和作用，Scrapy的架构以及主要组件。Scrapy是一个Python开发的高效爬虫框架，用于抓取Web站点并提取结构化数据。文章还提到了Scrapy的命令行工具、Shell调试、动态内容处理以及Spider类型。通过对Scrapy的了解，读者可以快速入门并掌握爬虫开发。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、框架概述

网络爬虫介绍

在介绍框架之前，简单介绍一下网络爬虫（Web Crawler）。

当我们上网时，浏览的网页上有很多形形色色的信息，我们可以手动收集（复制粘贴or下载）我们需要的信息。但是，当信息量比较多就显得很麻烦了，有没有一种方式可以自动且快捷地把一堆相关网页上的海量信息下载下来呢？有，那就是网络爬虫。

网络爬虫是一种从 Web 上自动下载网页的程序——网络爬虫把一个或多个“种子网页”作为输入，然后经过下载、分析和扫描等处理过程来获取新链接。对于指向未下载网页的链接，将它们加到一个中央 URL 队列中。然后，从队列中选择一个新的网页进行下载……如此往复，就像蛛网一样访问并下载到所有延伸的网页，在这个过程中，分析并提取网页中有用的数据，以结构化的方式存储。

事实上，所有我们所知的主要的搜索引擎（百度、Google…）都使用爬虫，有效的网络爬虫是现代搜索引擎取得成功的关键。

Scrapy是什么

Scrapy 是由 Python 语言开发的一个快速、高层次的屏幕抓取和 Web 抓取框架，用于抓取 Web 站点并从页面中提取结构化的数据。相比于传统的爬虫来说，基于 Scrapy 框架的爬虫更加结构化，同时也更加高效，能完成更加复杂的爬取任务。

Scrapy架构概览

Scrapy 框架的架构如图所示。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

smilejiasmile 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。