Scrapy入门--爬取cnblogs文章

最新推荐文章于 2022-01-20 04:11:48 发布

女神对面的waltsmith

最新推荐文章于 2022-01-20 04:11:48 发布

阅读量926

点赞数 2

分类专栏： Python 文章标签： scrapy 爬虫 python 框架

本文链接：https://blog.csdn.net/chengcheng95588/article/details/78955346

版权

前言

实验环境：Anaconda3-5.0.1；
Python版本：3.6；
OS：win10；
完整代码：完整示例；

一、Scrapy简介

What is Scrapy？

Scrapy 是一个爬虫框架，为了爬取网站数据，提取结构性数据而编写。可应用在包括数据挖掘，信息处理或存储历史数据等领域。
Scrapy，即Scraping data with Python。Scrapy 使用异步网络库Twisted来处理网络通讯，架构清晰，并且包含了各种中间件接口，满足不同年龄段不同人群的个性化需求哈。

Scrapy 架构

框架内容，不准备专业搞这个或面试就不用记了，看看过了就ok了
先上经典高清无码大图
这里写图片描述

引擎(Scrapy Engine)
负责组件之间数据的流转，它实现了并行化，类似于管道系统；
调度器(Scheduler)
接收requests，让它们老实在这里排队，以便后面下载器处理，requests中大部分都是url，体积较小，可想，即使有很多请求，也是没有关系的哈
下载器(Downloader)
下载器负责处理requests，抓取网页，并传递给引擎，之后抓取结果返回给spider；下载器是scrapy框架性能的中最重要的一环，机制复杂，总之，它限制了并发数，有管道长度的延迟；下载器的能力受限于CONCURRENT_REQUESTS*设置。
爬虫中间件(Spider Middlewares)
位于引擎和Spider之间，处理抓取器的输入和输出；当你想在spiders产生的Items到达Item Pipeline之前或response到达spider之前做一些处理，就用它；
爬虫(Spiders) ♥♥♥
这部分是用户编写的可定制化的部分，负责解析response，产生items和url；它对Scrapy框架性能没啥影响，不是瓶颈哈；
项目管道(Item Pipeline) ♥♥♥
负责处理spider产生的item；典型用途：清洗，验证，持久化等；Spider对每个Request可能产生几百个items，只有CONCURRENT_ITEMS会被并行处理；注意，当使用pipelines连接数据库时，pipelines的默认值是100，此时向数据库导入数据就会造成瓶颈问题了，因为items太多啊
下载器中间件(Downloader Middlewares) ♥♥
位于下载器和引擎之间，处理传送到下载器的requests和传送到引擎的response；可以想象，当你要在requests到达下载器之前，或者，responses到达爬虫之前做一些预处理，那就要用这个玩意了ÿ

最低0.47元/天解锁文章

女神对面的waltsmith

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Scrapy入门--爬取cnblogs文章

前言实验环境：Anaconda3-5.0.1；Python版本：3.6；OS：win10；完整代码：完整示例；Scrapy简介What is Scrapy？Scrapy 是一个爬虫框架，为了爬取网站数据，提取结构性数据而编写。可应用在包括数据挖掘，信息处理或存储历史数据等领域。
复制链接

扫一扫

专栏目录