5.1-python爬虫之Scrapy框架及入门

最新推荐文章于 2024-04-29 12:40:50 发布

Nosimper

最新推荐文章于 2024-04-29 12:40:50 发布

阅读量522

点赞数

分类专栏： python爬虫学习笔记文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_43616565/article/details/119853914

版权

python爬虫学习笔记专栏收录该内容

15 篇文章 0 订阅

订阅专栏

系列文章目录

python爬虫目录

文章目录

系列文章目录
前言
一、Scrapy框架架构
二、安装和文档
三、快速入门

前言

摘录自B站对应课程笔记
不愧是清华大佬！把Python网络爬虫讲得如此简单明了！从入门到精通保姆级教程（建议收藏）

以下是本篇文章正文内容，下面案例可供参考

一、Scrapy框架架构

1、Scrapy框架介绍

写一个爬虫，需要做很多的事情。比如：发送网络请求、数据解析、数据存储、反反爬虫机制（更换ip代理、设置请求头等）、异步请求等。这些工作如果每次都要自己从零开始写的话，比较浪费时间。因此Scrapy把一些基础的东西封装好了，在他上面写爬虫可以变的更加的高效（爬取效率和开发效率）。因此真正在公司里，一些上了量的爬虫，都是使用Scrapy框架来解决。

2、Scrapy架构图

在这里插入图片描述

3、Scrapy框架模块功能

Scrapy Engine（引擎）：Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloader、Scheduler中间通信、传递数据等。
Spider（爬虫）：发送需要爬取的链接给引擎，最后引擎把其他模块请求回来的数据再发送给爬虫，爬虫就去解析想要的数据。这个部分是我们开发者自己写的，因为要爬取哪些链接，页面中的哪些数据是我们需要的，都是由程序员自己决定。
Scheduler（调度器）：负责接收引擎发送过来的请求，并按照一定的方式进行排列和整理，负责调度请求的顺序等。
Downloader（下载器）：负责接收引擎传过来的下载请求，然后去网络上下载对应的数据再交还给引擎。
Item Pipeline（管道）：负责将Spider（爬虫）传递过来的数据进行保存。具体保存在哪里，应该看开发者自己的需求。
Downloader Middlewares（下载中间件）：可以扩展下载器和引擎之间通信功能的中间件。
Spider Middlewares（Spider中间件）：可以扩展引擎和爬虫之间通信功能的中间件。

二、安装和文档

安装：通过pip install scrapy即可安装。
Scrapy官方文档：http://doc.scrapy.org/en/latest
Scrapy中文文档：http://scrapy-4. chs.readthedocs.io/zh_CN/latest/index.html

1、在ubuntu上安装scrapy之前，需要先安装以下依赖,然后再通过pip install scrapy安装。：

sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

2、如果在windows系统下，提示这个错误ModuleNotFoundError: No module named 'win32api'，那么使用以下命令可以解决：pip install pypiwin32。

三、快速入门

1、创建项目

要使用Scrapy框架创建项目，需要通过命令来创建。首先进入到你想把这个项目存放的目录。然后使用以下命令创建：

scrapy startproject [项目名称]

2、目录结构介绍

在这里插入图片描述

以下介绍下主要文件的作用：

items.py：用来存放爬虫爬取下来数据的模型。
middlewares.py：用来存放各种中间件的文件。
pipelines.py：用来将items的模型存储到本地磁盘中。
settings.py：本爬虫的一些配置信息（比如请求头、多久发送一次请求、ip代理池等）。
scrapy.cfg：项目的配置文件。
spiders包：以后所有的爬虫，都是存放到这个里面。

3、使用Scrapy框架爬取糗事百科段子

使用命令创建一个爬虫：
进入到项目所在的路径，执行命令 scrapy genspider [爬虫名] [爬虫域名].注意，爬虫名字不能和项目名称一致。

scrapy genspider qsbk_spider "qiushibaike.com"

创建了一个名字叫做 qsbk_spider 的爬虫，并且能爬取的网页只会限制在 qiushibaike.com 这个域名下。
在这里插入图片描述

爬虫代码解析：

import scrapy
 
class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['http://qiushibaike.com/']
 
    def parse(self, response):
        pass

其实这些代码我们完全可以自己手动去写，而不用命令。只不过是不用命令，自己写这些代码比较麻烦。要创建一个Spider，那么必须自定义一个类，继承自scrapy.Spider，然后在这个类中定义三个属性和一个方法。

name：这个爬虫的名字，名字必须是唯一的。
allow_domains：允许的域名。爬虫只会爬取这个域名下的网页，其他不是这个域名下的网页会被自动忽略。
start_urls：爬虫从这个变量中的url开始。
parse：引擎会把下载器下载回来的数据扔给爬虫解析，爬虫再把数据传给这个parse方法。这个是个固定的写法。这个方法的作用有两个，第一个是提取想要的数据。第二个是生成下一个请求的url。

修改settings.py代码：
在做一个爬虫之前，一定要记得修改setttings.py中的设置。两个地方是强烈建议设置的。

ROBOTSTXT_OBEY 设置为 False。默认是True。即遵守机器协议，那么在爬虫的时候，scrapy首先去找robots.txt文件，如果没有找到。则直接停止爬取。
DEFAULT_REQUEST_HEADERS 添加 User-Agent。这个也是告诉服务器，我这个请求是一个正常的请求，不是一个爬虫。

简单运行爬虫：
在项目根目录下执行命令来运行爬虫代码：scrapy crawl qsbk_spider
在这里插入图片描述

完成的爬虫代码：
1、爬虫部分代码：

import scrapy
from scrapy.http.response.html import HtmlResponse
from scrapy.selector.unified import SelectorList
from qsbk.items import QsbkItem
 
class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/page/1/']
 
    def parse(self, response):
        # SelectorList
        duanziDivs = response.xpath("//div[@class='col1 old-style-col1']/div")
        for duanziDiv in duanziDivs:
            # duanziDiv 类型： Selector
            auther = duanziDiv.xpath(".//h2/text()").get().strip()
            content = duanziDiv.xpath(".//div[@class='content']//text()").getall()
            content = "".join(content).strip()
            item = QsbkItem(auther=auther, content=content)
            # duanzi = {"auther": auther, "content": content}
            # 方法将返回一个生成器
            yield item

2、items.py部分代码：

import scrapy
 
class QsbkItem(scrapy.Item):
    auther = scrapy.Field()
    content = scrapy.Field()

3、pipeline部分代码：

import json
 
class QsbkPipeline:
    def __init__(self):
        self.fp = open("duanzi.json", "w", encoding="utf-8")
 
    def open_spider(self, spider):
        print("爬虫开始。。。。")
 
    def process_item(self, item, spider):
        item_json = json.dumps(dict(item), ensure_ascii=False)
        self.fp.write(item_json + "\n")
        return item
 
    def close_spider(self, spider):
        print("爬虫结束。。。")
        self.fp.close()

运行scrapy项目：
运行scrapy项目。需要在终端，进入项目所在的路径，然后scrapy crawl [爬虫名字]即可运行指定的爬虫。如果不想每次都在命令行中运行，那么可以把这个命令写在一个文件中。以后就在pycharm中执行运行这个文件就可以了。比如现在新创建一个文件叫做start.py，然后在这个文件中填入以下代码：

from scrapy import cmdline
 
# 下面是等价的
cmdline.execute(["scrapy", "crawl", "qsbk_spider"])
# cmdline.execute("scrapy crawl qsbk_spider".split())

Scrapy框架爬取糗事百科段子总结
1、response 是一个 scrapy.http.response.html.HtmlResponse 对象。可以执行 xpath 和 css 语法来提取数据。
2、提取出来的数据，是一个 Selector 或是一个 SelectorList 对象。如果想要获取其中的字符串，那么应该执行 getall 或者 get 方法
3、getall 方法：获取 Selector 中所有的文本。返回的是一个列表
4、get 方法：获取的是 Selector 中的第一个文本。返回的是一个 str 类型。
5、如果数据解析回来，要传给 pipeline 处理，那么可以使用 yield 来返回。或者是收集所有的 item. 最后统一使用 return 返回。
6、item：建议在 items.py 中定义号模型，以后就不要使用字典。
7、pipeline: 这是一个专门用来保存数据的，其中三个方法是经常用到:
open_spoder(self, spider):当爬虫被打开时候执行。
process_spider(self, item, spider): 当爬虫有 item 传过来的时候会被调用。
close_spider(self, spider):当爬虫关闭的时候会被调用
注意：要激活 pipeline ,应该在 setting.py 中，设置 ITEM_PIPELINE。示例如下

# pipelines 和 优先级， 优先级值越小，越先运行
ITEM_PIPELINES = {
   'qsbk.pipelines.QsbkPipeline': 300,
}

4、优化数据存储方式

JsonItemExporter 和 JsonLinesItemExporter
保存json 数据的时候，可以使用这个两个类，让操作变得更简单：

1、JsonItemExporter

这个是每次把数据添加到内存中，最后统一写入到磁盘中。
好处是，存储的是一个满足json规则的数据。
坏处是，如果数据量比较大，那么比较耗内存

from scrapy.exporters import JsonItemExporter
 
class QsbkPipeline:
    def __init__(self):
        self.fp = open("duanzi.json", "wb")
        self.exporter = JsonItemExporter(self.fp, encoding="utf-8", ensure_ascii=False )
 
    def open_spider(self, spider):
        print("爬虫开始。。。。")
        self.exporter.start_exporting()
 
    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item
 
    def close_spider(self, spider):
        print("爬虫结束。。。")
        self.exporter.finish_exporting()
        self.fp.close()

2、JsonLinesItemExporter

这个是每次调用 export_item 的时候把这个item 存储到硬盘中。
好处是，每次处理数据的时候，就直接存储到硬盘中，不会消耗内存，数据也比较安全
坏处是，每一个字典是一行，整个文件不是一个满足json格式的文件

from scrapy.exporters import JsonLinesItemExporter
 
class QsbkPipeline:
    def __init__(self):
        self.fp = open("duanzi.json", "wb")
        self.exporter = JsonLinesItemExporter(self.fp, encoding="utf-8", ensure_ascii=False )
 
    def open_spider(self, spider):
        print("爬虫开始。。。。")
 
    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item
 
    def close_spider(self, spider):
        print("爬虫结束。。。")
        self.fp.close()

5、抓取多个页面

import scrapy
from scrapy.http.response.html import HtmlResponse
from scrapy.selector.unified import SelectorList
from qsbk.items import QsbkItem
 
class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/page/1/']
 
    base_domain = "https://www.qiushibaike.com"
 
    def parse(self, response):
        # SelectorList
        duanziDivs = response.xpath("//div[@class='col1 old-style-col1']/div")
        for duanziDiv in duanziDivs:
            # duanziDiv 类型： Selector
            auther = duanziDiv.xpath(".//h2/text()").get().strip()
            content = duanziDiv.xpath(".//div[@class='content']//text()").getall()
            content = "".join(content).strip()
            item = QsbkItem(auther=auther, content=content)
            # duanzi = {"auther": auther, "content": content}
            # 方法将返回一个生成器
            yield item
        next_url = response.xpath("//ul[@class='pagination']/li[last()]/a/@href").get()
        if not next_url:
            return   # 访问到最后一页没有“下一页”按钮，最后一个 li 没有 href
        else:
            # 重启创建一个请求，让调度器处理
            yield scrapy.Request(self.base_domain + next_url, callback=self.parse)