python爬虫 -09- 扩展(简单介绍和日志记录扩展)

介绍

 扩展框架提供一个机制,使得你能将自定义功能绑定到Scrapy。

 扩展只是正常的类,它们在Scrapy启动时被实例化、初始化。

扩展一般分为三种状态:可用的(Available)、开启的(enabled)和禁用的(disabled)。一些扩展经常需要依赖一些特别的配置,比如HTTP Cache扩展是可用的但默认是禁用的,除非设置了HTTPCACHE_ENABLED配置项。通过将其顺序设置为None,即可禁用。

telnet

 在cmd中

telnet 127.0.0.1 6023

 此时会让你输入用户名和密码,用户名就是scrapy,密码在我们的日志中输出了,如下

 此时我们可以通过黑窗口查看爬虫的运行情况

# 查看方法和属性
dir()

from pprint import pprint 
# 查看爬取情况
pprint(stats.get_stats)   

当然还有很多的信息可以查看


日志插件

创建文件


代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author     : codekiller
# @Time       : 2020/8/5 23:36
# @Email      : jcl1345414527@163.com
# @File       : extensions.py
# @Description: 日志扩展

import logging
from collections import defaultdict
import datetime
from scrapy import signals
from scrapy.exceptions import NotConfigured

logger = logging.getLogger(__name__)


class SpiderOpenCloseLogging:

    def __init__(self, item_count):
        self.item_count = item_count
        self.items_scraped = 0
        self.items_dropped = 0

        self.stats = defaultdict(int)
        self.error_stats = defaultdict(int)

    @classmethod
    def from_crawler(cls, crawler):
        # first check if the extension should be enabled and raise
        # NotConfigured otherwise
        if not crawler.settings.getbool('MYEXT_ENABLED'):
            raise NotConfigured

        # get the number of items from settings
        item_count = crawler.settings.getint('MYEXT_ITEMCOUNT', 1000)

        # instantiate the extension object
        ext = cls(item_count)

        # connect the extension object to signals
        # 将对象中的指定方法绑定一个监听事件
        crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
        crawler.signals.connect(ext.item_scraped, signal=signals.item_scraped)
        crawler.signals.connect(ext.item_dropped, signal=signals.item_dropped)
        crawler.signals.connect(ext.response_received, signal=signals.response_received)

        # return the extension object
        return ext

    # 当spider开始爬取时发送该信号。该信号一般用来分配spider的资源,不过其也能做任何事
    def spider_opened(self, spider):
        print("====" * 20, "opened spider %s" % spider.name)

    # 当某个spider被关闭时,该信号被发送。该信号可以用来释放每个spider在 spider_opened 时占用的资源
    def spider_closed(self, spider):
        print("====" * 20, "closed spider %s" % spider.name)

    # 当item被爬取,并通过所有 Item Pipeline 后(没有被丢弃(dropped),发送该信号
    def item_scraped(self, item, spider):
        self.items_scraped += 1
        if self.items_scraped % self.item_count == 0:
            print("====" * 20, "scraped %d items" % self.items_scraped)

    # 当item通过 Item Pipeline ,有些pipeline抛出 DropItem 异常,丢弃item时,该信号被发送
    def item_dropped(self, item, spider, response, exception):
        self.items_dropped += 1
        if self.items_dropped % self.item_count == 0:
            print("====" * 20, "dropped %d items" % self.items_dropped)

    # 当引擎从downloader获取到一个新的 Response 时发送该信号
    def response_received(self, response, request, spider):
        now = datetime.datetime.now().strftime("%Y%m%d%H%M")
        self.stats[now] += 1
        # 记录响应异常的个数
        if response.status in [401, 403, 404, 500, 501, 502]:
            self.error_stats[now] += 1
        # 当响应异常的比例大于0.2输出日志信息
        if float(self.error_stats[now]) / self.stats[now] > 0.2:
            logger.warning("received %s response, "
                           "and %s of item is none 200 in %s" % \
                           (self.stats[now], self.error_stats[now], now))


settings

 增加一个配置,看我们的代码,有一个判断逻辑if not crawler.settings.getbool(‘MYEXT_ENABLED’):

# 使用自定义的插件
MYEXT_ENABLED =True

 在EXTENSIONS数组中增加我们的自定义扩展

EXTENSIONS = {
   #'scrapy.extensions.telnet.TelnetConsole': None,
   'qianmu.extensions.SpiderOpenCloseLogging': 1
}

为了禁用一个默认开启的扩展(比如,包含在 EXTENSIONS_BASE 中的扩展), 需要将其顺序(order)设置为 None


内置扩展

 扩展在扩展类被实例化时加载和激活,实例化代码必须在类的构造函数(init)中执行。

  1. ’scrapy.extensions.corestats.CoreStats’:0

    • 名称:核心统计扩展

    • 说明:如果统计收集器(stats collection)启用了,该扩展开启核心统计收集(参考 数据收集(Stats Collection))

  2. ’scrapy.telnet.TelnetConsole’:0

    • 名称:Telnet控制台扩展
    • 说明:提供了一个telnet控制台,telnet控制台通过TELNETCONSOLE_ENABLED配置项开启,服务器会监听TELNETCONSOLE_PORT指定的端口
  3. ’scrapy.extensions.memusage.MemoryUsage’:0

    • 名称:内存使用扩展
    • 说明:监听Scrapy进程内存使用量,如果使用内存量超过某个指定值,发送提醒邮件,如果超过某个指定值,关闭spider
  4. ’scrapy.extensions.memdebug.MemoryDebugger’:0

    • 名称:内存调试扩展
    • 说明:该扩展用于调试内存使用量,开启该扩展,需要打开MEMDEBUG_ENABLED配置项
  5. ’scrapy.extensions.closespider.CloseSpider’:0

    • 名称:当某些状况发生,spider会自动关闭,用来为状况指定关闭方式
  6. ’scrapy.extensions.feedexport.FeedExporter’:0

  7. ’scrapy.extensions.logstats.LogStats’:0

    • 名称:记录统计扩展
    • 说明:记录基本的统计信息,比如爬取的页面和条目(items)
  8. ‘scrapy.extensions.spiderstate.SpiderState’:0

  9. ‘scrapy.extensions.throttle.AutoThrottle’:0

  10. ‘scrapy.extensions.statsmailer.StatsMailer’:0

    • 名称:StatsMailer扩展
    • 说明:这个简单的扩展可用来在一个域名爬取完毕时发送提醒邮件,包含Scrapy收集的统计信息。邮件会发送给通过STATSMAILER_RCPTS指定的所有接收人

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值