Scrapy框架介绍

最新推荐文章于 2024-09-28 22:01:56 发布

coco3600

最新推荐文章于 2024-09-28 22:01:56 发布

阅读量1.2k

点赞数 1

文章标签： python 数据库 json

scrapy (三）各部分意义及框架示意图详解

一、框架示意图

Scrapy 由 Python 编写，是一个快速、高层次的屏幕抓取和 web 抓取框架，用于抓取 web 站点并从页面中提取结构化的数据。 Scrapy 用途广泛，可以用于数据挖掘、监测和自动化测试。

1、Scrapy Engine(引擎): 引擎负责控制数据流在系统的所有组件中流动，并在相应动作发生时触发事件。

2、Scheduler(调度器): 调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。

3、Downloader（下载器）：下载器负责获取页面数据并提供给引擎，而后提供给spider。

4、Spider（爬虫）： Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。

5、Item Pipeline(管道)： Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存储到数据库中)。

6、Downloader Middlewares（下载中间件）：下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

7、Spider Middlewares（Spider中间件）： Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

(2).最新版

1、引擎：怎么样，爬虫老弟，搞起来啊！

2、Spider：好啊，老哥，来来来，开始吧。今天就爬xxx网站怎么样

3、引擎：没问题，入口URL发过来！

4、Spider：呐，入口URL是https://ww.xxx.com。

5、引擎：调度器老弟，我这有request请求你帮我排序入队一下吧。

6、调度器：引擎老哥，这是我处理好的request。

7、引擎：下载器老弟，你按照下载中间件的设置帮我下载一下这个request请求。

8、下载器：可以了，这是下载好的东西。（如果失败：sorry，这个request下载失败了。然后引擎告诉调度器，这个request下载失败了，你记录一下，我们待会儿再下载）

9、引擎：爬虫老弟，这是下载好的东西，下载器已经按照下载中间件处理过了，你自己处理一下吧。

10、Spider：引擎老哥，我的数据处理完毕了，这里有两个结果，这个是我需要跟进的URL，还有这个是我获取到的Item数据。

11、引擎：管道老弟，我这儿有个item你帮我处理一下！

12、引擎：调度器老弟，这是需要跟进URL你帮我处理下。（然后从第四步开始循环，直到获取完需要全部信息）

二、爬虫人员的主要工作

1 、创建一个 Scrapy 项目

2 、定义提取的 Item

3 、编写爬取网站的 spider 并提取 Item

4 、编写 Item Pipeline 来存储提取到的 Item( 即数据 )

三、 scrapy 基本流程

四、 scrapy 框架各部分详解

1、 Scrapy Items ： 定义您想抓取的数据

import scrapy

class TorrentItem(scrapy.Item):

name = scrapy.Field()

2、spiders： 编写提取数据的 Spider

1 ）：定义初始 URL 根网址、针对后续链接的规则以及从页面中提取数据的规则（即写正则或 xpath 等等）。

2 ）执行 spider ，获取数据

注：运行 spider 来获取网站的数据，并以 JSON 格式存入到 scraped_data.json 文件中 :

terminal ： scrapy crawl mininova -o scraped_data.json

3、编写 item pipeline 将 item存储到数据库中

注：

1 ）、 Item 在 Spider 中被收集之后，它将会被传递到 Item Pipeline ，一些组件会按照一定的顺序执行对 Item 的处理；

2 ）每个 item pipeline 组件 ( 有时称之为 “Item Pipeline”) 是实现了简单方法的 Python 类。他们接收到 Item 并通过它执行一些行为，同时也决定此 Item 是否继续通过 pipeline ，或是被丢弃而不再进行处理。

3 ） item pipeline 的一些典型应用：

a ）清理 HTML 数据

b ）验证爬取的数据 ( 检查 item 包含某些字段 )

c ）查重 ( 并丢弃 )

4 ）将爬取结果保存到数据库中

4、编写自己的item pipeline

注：每个 item pipiline 组件是一个独立的 Python 类，同时必须实现以下方法 :

1 ） process_item(item, spider)

每个 item pipeline 组件都需要调用该方法，这个方法必须返回一个 Item ( 或任何继承类 ) 对象，或是抛出 DropItem 异常，被丢弃的 item 将不会被之后的 pipeline 组件所处理。

参数 :

item (Item 对象 ) – 被爬取的 item

spider (Spider 对象 ) – 爬取该 item 的 spider

2 ） open_spider(spider)

当 spider 被开启时，这个方法被调用。

参数 : spider (Spider 对象 ) – 被开启的 spider

3 ） close_spider(spider)

当 spider 被关闭时，这个方法被调用

参数 : spider (Spider 对象 ) – 被关闭的 spider

5、查看提取到的数据

执行结束后，查看 scraped_data.json , 将看到提取到的 item:

注： 1 ）由于 selectors 返回 list, 所以值都是以 list 存储的 ( 除了 url 是直接赋值之外 ) 。

2 ） Item Loaders ：可以保存单个数据或者对数据执行额外的处理

About Me

  ........................................................................................................................  
  ● 本文作者：小麦苗，部分内容整理自网络，若有侵权请联系小麦苗删除  
  ● 本文在itpub（  http://blog.itpub.net/26736162  ）、博客园（  http://www.cnblogs.com/lhrbest  ）和个人weixin公众号（  xiaomaimiaolhr  ）上有同步更新  
  ● 本文itpub地址：  http://blog.itpub.net/26736162   
  ● 本文博客园地址：  http://www.cnblogs.com/lhrbest   
  ● 本文pdf版、个人简介及小麦苗云盘地址：  http://blog.itpub.net/26736162/viewspace-1624453/   
  ● 数据库笔试面试题库及解答：  http://blog.itpub.net/26736162/viewspace-2134706/   
  ● DBA宝典今日头条号地址：  http://www.toutiao.com/c/user/6401772890/#mid=1564638659405826   
  ........................................................................................................................  
  ● QQ群号：  230161599  （满）  、618766405   
  ● weixin群：可加我weixin，我拉大家进群，非诚勿扰  
  ● 联系我请加QQ好友  （   646634621   ）  ，注明添加缘由  
  ● 于 2019-05-01 06:00 ~ 2019-05-30 24:00 在魔都完成  
  ● 最新修改时间：2019-05-01 06:00 ~ 2019-05-30 24:00  
  ● 文章内容来源于小麦苗的学习笔记，部分整理自网络，若有侵权或不当之处还请谅解  
  ● 版权所有，欢迎分享本文，转载请保留出处  
  ........................................................................................................................  
  ●  小麦苗的微店  ：  https://weidian.com/s/793741433?wfr=c&ifr=shopdetail   
  ●  小麦苗出版的数据库类丛书  ：  http://blog.itpub.net/26736162/viewspace-2142121/   
  ●  小麦苗OCP、OCM、高可用网络班  ：  http://blog.itpub.net/26736162/viewspace-2148098/   
  ●  小麦苗腾讯课堂主页  ：  https://lhr.ke.qq.com/   
  ........................................................................................................................  
 使用   weixin客户端   扫描下面的二维码来关注小麦苗的weixin公众号（  xiaomaimiaolhr  ）及QQ群（DBA宝典）、添加小麦苗weixin，  学习最实用的数据库技术。  
 
  ........................................................................................................................