python爬虫 -09- 扩展(简单介绍和日志记录扩展)

最新推荐文章于 2024-05-01 01:00:00 发布

迷雾总会解

最新推荐文章于 2024-05-01 01:00:00 发布

阅读量440

点赞数

分类专栏：爬虫 python 文章标签： python

本文链接：https://blog.csdn.net/qq_44766883/article/details/108093868

版权

python 同时被 2 个专栏收录

67 篇文章 6 订阅

订阅专栏

爬虫

15 篇文章 1 订阅

订阅专栏

介绍

扩展框架提供一个机制，使得你能将自定义功能绑定到Scrapy。

扩展只是正常的类，它们在Scrapy启动时被实例化、初始化。

扩展一般分为三种状态：可用的（Available）、开启的（enabled）和禁用的（disabled）。一些扩展经常需要依赖一些特别的配置，比如HTTP Cache扩展是可用的但默认是禁用的,除非设置了HTTPCACHE_ENABLED配置项。通过将其顺序设置为None，即可禁用。

telnet

在cmd中

telnet 127.0.0.1 6023

此时会让你输入用户名和密码，用户名就是scrapy，密码在我们的日志中输出了，如下

此时我们可以通过黑窗口查看爬虫的运行情况

# 查看方法和属性
dir()

from pprint import pprint 
# 查看爬取情况
pprint(stats.get_stats)

当然还有很多的信息可以查看

日志插件

创建文件

代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author     : codekiller
# @Time       : 2020/8/5 23:36
# @Email      : jcl1345414527@163.com
# @File       : extensions.py
# @Description: 日志扩展

import logging
from collections import defaultdict
import datetime
from scrapy import signals
from scrapy.exceptions import NotConfigured

logger = logging.getLogger(__name__)


class SpiderOpenCloseLogging:

    def __init__(self, item_count):
        self.item_count = item_count
        self.items_scraped = 0
        self.items_dropped = 0

        self.stats = defaultdict(int)
        self.error_stats = defaultdict(int)

    @classmethod
    def from_crawler(cls, crawler):
        # first check if the extension should be enabled and raise
        # NotConfigured otherwise
        if not crawler.settings.getbool('MYEXT_ENABLED'):
            raise NotConfigured

        # get the number of items from settings
        item_count = crawler.settings.getint('MYEXT_ITEMCOUNT', 1000)

        # instantiate the extension object
        ext = cls(item_count)

        # connect the extension object to signals
        # 将对象中的指定方法绑定一个监听事件
        crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
        crawler.signals.connect(ext.item_scraped, signal=signals.item_scraped)
        crawler.signals.connect(ext.item_dropped, signal=signals.item_dropped)
        crawler.signals.connect(ext.response_received, signal=signals.response_received)

        # return the extension object
        return ext

    # 当spider开始爬取时发送该信号。该信号一般用来分配spider的资源，不过其也能做任何事
    def spider_opened(self, spider):
        print("====" * 20, "opened spider %s" % spider.name)

    # 当某个spider被关闭时，该信号被发送。该信号可以用来释放每个spider在 spider_opened 时占用的资源
    def spider_closed(self, spider):
        print("====" * 20, "closed spider %s" % spider.name)

    # 当item被爬取，并通过所有 Item Pipeline 后(没有被丢弃(dropped)，发送该信号
    def item_scraped(self, item, spider):
        self.items_scraped += 1
        if self.items_scraped % self.item_count == 0:
            print("====" * 20, "scraped %d items" % self.items_scraped)

    # 当item通过 Item Pipeline ，有些pipeline抛出 DropItem 异常，丢弃item时，该信号被发送
    def item_dropped(self, item, spider, response, exception):
        self.items_dropped += 1
        if self.items_dropped % self.item_count == 0:
            print("====" * 20, "dropped %d items" % self.items_dropped)

    # 当引擎从downloader获取到一个新的 Response 时发送该信号
    def response_received(self, response, request, spider):
        now = datetime.datetime.now().strftime("%Y%m%d%H%M")
        self.stats[now] += 1
        # 记录响应异常的个数
        if response.status in [401, 403, 404, 500, 501, 502]:
            self.error_stats[now] += 1
        # 当响应异常的比例大于0.2输出日志信息
        if float(self.error_stats[now]) / self.stats[now] > 0.2:
            logger.warning("received %s response, "
                           "and %s of item is none 200 in %s" % \
                           (self.stats[now], self.error_stats[now], now))

settings

增加一个配置，看我们的代码，有一个判断逻辑if not crawler.settings.getbool(‘MYEXT_ENABLED’):

# 使用自定义的插件
MYEXT_ENABLED =True

在EXTENSIONS数组中增加我们的自定义扩展

EXTENSIONS = {
   #'scrapy.extensions.telnet.TelnetConsole': None,
   'qianmu.extensions.SpiderOpenCloseLogging': 1
}

为了禁用一个默认开启的扩展(比如，包含在 EXTENSIONS_BASE 中的扩展)，需要将其顺序(order)设置为 None

内置扩展

扩展在扩展类被实例化时加载和激活，实例化代码必须在类的构造函数（init）中执行。

’scrapy.extensions.corestats.CoreStats’:0
- 名称：核心统计扩展
- 说明：如果统计收集器（stats collection)启用了，该扩展开启核心统计收集(参考数据收集(Stats Collection))
’scrapy.telnet.TelnetConsole’:0
- 名称：Telnet控制台扩展
- 说明：提供了一个telnet控制台，telnet控制台通过TELNETCONSOLE_ENABLED配置项开启，服务器会监听TELNETCONSOLE_PORT指定的端口
’scrapy.extensions.memusage.MemoryUsage’:0
- 名称：内存使用扩展
- 说明：监听Scrapy进程内存使用量，如果使用内存量超过某个指定值，发送提醒邮件，如果超过某个指定值，关闭spider
’scrapy.extensions.memdebug.MemoryDebugger’:0
- 名称：内存调试扩展
- 说明：该扩展用于调试内存使用量，开启该扩展，需要打开MEMDEBUG_ENABLED配置项
’scrapy.extensions.closespider.CloseSpider’:0
- 名称：当某些状况发生，spider会自动关闭，用来为状况指定关闭方式
’scrapy.extensions.feedexport.FeedExporter’:0
’scrapy.extensions.logstats.LogStats’:0
- 名称：记录统计扩展
- 说明：记录基本的统计信息，比如爬取的页面和条目（items）
‘scrapy.extensions.spiderstate.SpiderState’:0
‘scrapy.extensions.throttle.AutoThrottle’:0
‘scrapy.extensions.statsmailer.StatsMailer’：0
- 名称：StatsMailer扩展
- 说明：这个简单的扩展可用来在一个域名爬取完毕时发送提醒邮件，包含Scrapy收集的统计信息。邮件会发送给通过STATSMAILER_RCPTS指定的所有接收人