python_爬虫 16 Scrapy框架之（二）快速入门

最新推荐文章于 2024-07-21 14:00:00 发布

思想流浪者

最新推荐文章于 2024-07-21 14:00:00 发布

阅读量785

点赞数

分类专栏： python爬虫文章标签： python 爬虫 scrapy

本文链接：https://blog.csdn.net/qq_30346413/article/details/117753308

版权

python爬虫专栏收录该内容

26 篇文章 2 订阅

订阅专栏

3、使用Scrapy框架爬取糗事百科段子：

（2）JsonLinesItemExporter

5、抓取多个页面

一、安装和文档：

安装：通过pip install scrapy即可安装。
Scrapy官方文档：http://doc.scrapy.org/en/latest
Scrapy中文文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

注意：

在ubuntu上安装scrapy之前，需要先安装以下依赖：
sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev，然后再通过pip install scrapy安装。
如果在windows系统下，提示这个错误ModuleNotFoundError: No module named 'win32api'，那么使用以下命令可以解决：pip install pypiwin32。

二、快速入门：

1、创建项目：

要使用Scrapy框架创建项目，需要通过命令来创建。首先进入到你想把这个项目存放的目录。然后使用以下命令创建：

scrapy startproject [项目名称]

2、目录结构介绍：

以下介绍下主要文件的作用：

items.py：用来存放爬虫爬取下来数据的模型。
middlewares.py：用来存放各种中间件的文件。
pipelines.py：用来将items的模型存储到本地磁盘中。
settings.py：本爬虫的一些配置信息（比如请求头、多久发送一次请求、ip代理池等）。
scrapy.cfg：项目的配置文件。
spiders包：以后所有的爬虫，都是存放到这个里面。

3、使用Scrapy框架爬取糗事百科段子：

使用命令创建一个爬虫：

进入到项目所在的路径，执行命令 scrapy genspider [爬虫名] [爬虫域名].注意，爬虫名字不能和项目名称一致。

scrapy gensipder qsbk_spider "qiushibaike.com"

创建了一个名字叫做 qsbk_spider 的爬虫，并且能爬取的网页只会限制在 qiushibaike.com 这个域名下。

爬虫代码解析：

import scrapy

class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['http://qiushibaike.com/']

    def parse(self, response):
        pass

其实这些代码我们完全可以自己手动去写，而不用命令。只不过是不用命令，自己写这些代码比较麻烦。
要创建一个Spider，那么必须自定义一个类，继承自scrapy.Spider，然后在这个类中定义三个属性和一个方法。

name：这个爬虫的名字，名字必须是唯一的。
allow_domains：允许的域名。爬虫只会爬取这个域名下的网页，其他不是这个域名下的网页会被自动忽略。
start_urls：爬虫从这个变量中的url开始。
parse：引擎会把下载器下载回来的数据扔给爬虫解析，爬虫再把数据传给这个parse方法。这个是个固定的写法。这个方法的作用有两个，第一个是提取想要的数据。第二个是生成下一个请求的url。

修改`settings.py`代码：

在做一个爬虫之前，一定要记得修改setttings.py中的设置。两个地方是强烈建议设置的。

ROBOTSTXT_OBEY 设置为 False。默认是True。即遵守机器协议，那么在爬虫的时候，scrapy首先去找robots.txt文件，如果没有找到。则直接停止爬取。

DEFAULT_REQUEST_HEADERS 添加 User-Agent。这个也是告诉服务器，我这个请求是一个正常的请求，不是一个爬虫。

简单运行爬虫：

在项目根目录下执行命令来运行爬虫代码：scrapy crawl qsbk_spider

完成的爬虫代码：

爬虫部分代码：

import scrapy
from scrapy.http.response.html import HtmlResponse
from scrapy.selector.unified import SelectorList
from qsbk.items import QsbkItem

class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/page/1/']

    def parse(self, response):
        # SelectorList
        duanziDivs = response.xpath("//div[@class='col1 old-style-col1']/div")
        for duanziDiv in duanziDivs:
            # duanziDiv 类型： Selector
            auther = duanziDiv.xpath(".//h2/text()").get().strip()
            content = duanziDiv.xpath(".//div[@class='content']//text()").getall()
            content = "".join(content).strip()
            item = QsbkItem(auther=auther, content=content)
            # duanzi = {"auther": auther, "content": content}
            # 方法将返回一个生成器
            yield item

items.py部分代码：

import scrapy

class QsbkItem(scrapy.Item):
    auther = scrapy.Field()
    content = scrapy.Field()

pipeline部分代码：

import json

class QsbkPipeline:
    def __init__(self):
        self.fp = open("duanzi.json", "w", encoding="utf-8")

    def open_spider(self, spider):
        print("爬虫开始。。。。")

    def process_item(self, item, spider):
        item_json = json.dumps(dict(item), ensure_ascii=False)
        self.fp.write(item_json + "\n")
        return item

    def close_spider(self, spider):
        print("爬虫结束。。。")
        self.fp.close()

运行scrapy项目：

运行scrapy项目。需要在终端，进入项目所在的路径，然后scrapy crawl [爬虫名字]即可运行指定的爬虫。如果不想每次都在命令行中运行，那么可以把这个命令写在一个文件中。以后就在pycharm中执行运行这个文件就可以了。比如现在新创建一个文件叫做start.py，然后在这个文件中填入以下代码：

from scrapy import cmdline

# 下面是等价的
cmdline.execute(["scrapy", "crawl", "qsbk_spider"])
# cmdline.execute("scrapy crawl qsbk_spider".split())

Scrapy框架爬取糗事百科段子总结

1、response 是一个 scrapy.http.response.html.HtmlResponse 对象。可以执行 xpath 和 css 语法来提取数据。
2、提取出来的数据，是一个 Selector 或是一个 SelectorList 对象。如果想要获取其中的字符串，那么应该执行 getall 或者 get 方法
3、getall 方法：获取 Selector 中所有的文本。返回的是一个列表
4、get 方法：获取的是 Selector 中的第一个文本。返回的是一个 str 类型。
5、如果数据解析回来，要传给 pipeline 处理，那么可以使用 yield 来返回。或者是收集所有的 item. 最后统一使用 return 返回。
6、item：建议在 items.py 中定义号模型，以后就不要使用字典。
7、pipeline: 这是一个专门用来保存数据的，其中三个方法是经常用到:
   open_spoder(self, spider):当爬虫被打开时候执行。
   process_spider(self, item, spider): 当爬虫有 item 传过来的时候会被调用。
   close_spider(self, spider):当爬虫关闭的时候会被调用
   注意：要激活 pipeline ,应该在 setting.py 中，设置 ITEM_PIPELINE。示例如下

# pipelines 和 优先级， 优先级值越小，越先运行
ITEM_PIPELINES = {
   'qsbk.pipelines.QsbkPipeline': 300,
}

4、优化数据存储方式

JsonItemExporter 和 JsonLinesItemExporter
保存json 数据的时候，可以使用这个两个类，让操作变得更简单：

（1）JsonItemExporter

这个是每次把数据添加到内存中，最后统一写入到磁盘中。
好处是，存储的是一个满足json规则的数据。
坏处是，如果数据量比较大，那么比较耗内存

from scrapy.exporters import JsonItemExporter

class QsbkPipeline:
    def __init__(self):
        self.fp = open("duanzi.json", "wb")
        self.exporter = JsonItemExporter(self.fp, encoding="utf-8", ensure_ascii=False )

    def open_spider(self, spider):
        print("爬虫开始。。。。")
        self.exporter.start_exporting()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def close_spider(self, spider):
        print("爬虫结束。。。")
        self.exporter.finish_exporting()
        self.fp.close()

（2）JsonLinesItemExporter

这个是每次调用 export_item 的时候把这个item 存储到硬盘中。
好处是，每次处理数据的时候，就直接存储到硬盘中，不会消耗内存，数据也比较安全
坏处是，每一个字典是一行，整个文件不是一个满足json格式的文件

from scrapy.exporters import JsonLinesItemExporter

class QsbkPipeline:
    def __init__(self):
        self.fp = open("duanzi.json", "wb")
        self.exporter = JsonLinesItemExporter(self.fp, encoding="utf-8", ensure_ascii=False )

    def open_spider(self, spider):
        print("爬虫开始。。。。")

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def close_spider(self, spider):
        print("爬虫结束。。。")
        self.fp.close()

5、抓取多个页面

import scrapy
from scrapy.http.response.html import HtmlResponse
from scrapy.selector.unified import SelectorList
from qsbk.items import QsbkItem

class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/page/1/']

    base_domain = "https://www.qiushibaike.com"

    def parse(self, response):
        # SelectorList
        duanziDivs = response.xpath("//div[@class='col1 old-style-col1']/div")
        for duanziDiv in duanziDivs:
            # duanziDiv 类型： Selector
            auther = duanziDiv.xpath(".//h2/text()").get().strip()
            content = duanziDiv.xpath(".//div[@class='content']//text()").getall()
            content = "".join(content).strip()
            item = QsbkItem(auther=auther, content=content)
            # duanzi = {"auther": auther, "content": content}
            # 方法将返回一个生成器
            yield item
        next_url = response.xpath("//ul[@class='pagination']/li[last()]/a/@href").get()
        if not next_url:
            return   # 访问到最后一页没有“下一页”按钮，最后一个 li 没有 href
        else:
            # 重启创建一个请求，让调度器处理
            yield scrapy.Request(self.base_domain + next_url, callback=self.parse)

思想流浪者

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python_爬虫 16 Scrapy框架之（二）快速入门

Scrapy快速入门一、安装和文档：安装：通过pip install scrapy即可安装。 Scrapy官方文档：http://doc.scrapy.org/en/latest Scrapy中文文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html注意：在ubuntu上安装scrapy之前，需要先安装以下依赖：sudo apt-get install python3-dev build-essential py...
复制链接

扫一扫

专栏目录