第十二节段 -- 爬虫07：【Scarpy 框架01：简介及安装】

最新推荐文章于 2023-12-01 15:57:21 发布

亚呦u椰

最新推荐文章于 2023-12-01 15:57:21 发布

阅读量512

点赞数 1

分类专栏： python学习爬虫

本文链接：https://blog.csdn.net/weixin_42375099/article/details/97294826

版权

python学习同时被 2 个专栏收录

72 篇文章 5 订阅

订阅专栏

爬虫

11 篇文章 0 订阅

订阅专栏

文章目录

1. Scarpy 介绍
2. Scrapy 基本使用
- 2.1. 创建项目
- 2.2. 编写 spdier

1. Scarpy 介绍

整体框架流程图：

在这里插入图片描述

最简单的单个网页爬取流程是spiders > scheduler > downloader > spiders > item pipeline

流程：
1. 引擎从调度器中取出一个链接(URL)用于接下来的抓取
2. 引擎把URL封装成一个请求(Request)传给下载器
3. 下载器把资源下载下来，并封装成应答包(Response)
4. 爬虫解析Response
5. 解析出实体（Item）,则交给实体管道进行进一步的处理
6. 解析出的是链接（URL）,则把URL交给调度器等待抓取
Scary 主要包括以下组件：
1. 引擎(Scrapy)
  - 用来处理整个系统的数据流处理, 触发事务(框架核心)
2. 调度器(Scheduler)
  - 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
3. 下载器(Downloader)
  - 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
4. 爬虫(Spiders)
  - 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
5. 项目管道(Pipeline)
  - 负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
6. 下载器中间件(Downloader Middlewares)
  - 位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应
7. 爬虫中间件(Spider Middlewares)
  - 介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出
8. 调度中间件(Scheduler Middewares)
  - 介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应
安装：

安装时候可能会报错，按照报错的提示安装对应文件，然后再运行下边的代码

pip install Scarpy

注：windows平台需要依赖pywin32

pip install pypiwin32

2. Scrapy 基本使用

2.1. 创建项目

scrapy startproject 项目名称

在这里插入图片描述

文件说明：

名称	作用
scrapy.cfg	项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中）
items.py	设置数据存储模板，用于结构化数据，如：Django的Model
pipelines	数据处理行为，如：一般结构化的数据持久化
settings.py	配置文件，如：递归的层数、并发数，延迟下载等
spiders	爬虫目录，如：创建文件，编写爬虫规则

注意：一般创建爬虫文件时，以网站域名命名

2.2. 编写 spdier

在spiders目录中新建 daidu_spider.py 文件

注意：
1. 爬虫文件需要定义一个类，并继承scrapy.spiders.Spider
2. 必须定义name，即爬虫名，如果没有name，会报错。因为源码中是这样定义的
编写内容：

在这里可以告诉 scrapy 。要如何查找确切数据，这里必须要定义一些属性

name：它定义了蜘蛛的唯一名称
allowed_domains：它包含了蜘蛛抓取的基本URL；
start-urls：蜘蛛开始爬行的URL列表；
parse()：这是提取并解析刮下数据的方法；

下面的代码演示了蜘蛛代码的样子：

import scrapy

class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allwed_url = 'douban.com'
    start_urls = [
        'https://movie.douban.com/top250/'
    ]

    def parse(self, response):
        movie_name = response.xpath("//div[@class='item']//a/span[1]/text()").extract()
        movie_core = response.xpath("//div[@class='star']/span[2]/text()").extract()
        yield {
            'movie_name':movie_name,
            'movie_core':movie_core
        }

创建、运行爬虫：
1. 创建爬虫：（在terminal中输入该命令）
```
scrapy genspider 爬虫名 爬虫的域名
```

在这里插入图片描述
2. 运行爬虫：（在terminal中输入该命令）

方式一：
```
scrapy crawl 爬虫名
```
方式二：
注意：有时候需要设置 setting.py 文件

亚呦u椰

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
第十二节段 -- 爬虫07：【Scarpy 框架01：简介及安装】

1. Scarpy 介绍整体框架流程图：最简单的单个网页爬取流程是spiders > scheduler > downloader > spiders > item pipeline流程：引擎从调度器中取出一个链接(URL)用于接下来的抓取引擎把URL封装成一个请求(Request)传给下载器下载器把资源下载下来，并封装成应答包(Response...
复制链接

扫一扫