介绍
扩展框架提供一个机制,使得你能将自定义功能绑定到Scrapy。
扩展只是正常的类,它们在Scrapy启动时被实例化、初始化。
扩展一般分为三种状态:可用的(Available)、开启的(enabled)和禁用的(disabled)。一些扩展经常需要依赖一些特别的配置,比如HTTP Cache扩展是可用的但默认是禁用的,除非设置了HTTPCACHE_ENABLED配置项。通过将其顺序设置为None,即可禁用。
telnet
在cmd中
telnet 127.0.0.1 6023
此时会让你输入用户名和密码,用户名就是scrapy
,密码在我们的日志中输出了,如下
此时我们可以通过黑窗口查看爬虫的运行情况
# 查看方法和属性
dir()
from pprint import pprint
# 查看爬取情况
pprint(stats.get_stats)
当然还有很多的信息可以查看
日志插件
创建文件
代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author : codekiller
# @Time : 2020/8/5 23:36
# @Email : jcl1345414527@163.com
# @File : extensions.py
# @Description: 日志扩展
import logging
from collections import defaultdict
import datetime
from scrapy import signals
from scrapy.exceptions import NotConfigured
logger = logging.getLogger(__name__)
class SpiderOpenCloseLogging:
def __init__(self, item_count):
self.item_count = item_count
self.items_scraped = 0
self.items_dropped = 0
self.stats = defaultdict(int)
self.error_stats = defaultdict(int)
@classmethod
def from_crawler(cls, crawler):
# first check if the extension should be enabled and raise
# NotConfigured otherwise
if not crawler.settings.getbool('MYEXT_ENABLED'):
raise NotConfigured
# get the number of items from settings
item_count = crawler.settings.getint('MYEXT_ITEMCOUNT', 1000)
# instantiate the extension object
ext = cls(item_count)
# connect the extension object to signals
# 将对象中的指定方法绑定一个监听事件
crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
crawler.signals.connect(ext.item_scraped, signal=signals.item_scraped)
crawler.signals.connect(ext.item_dropped, signal=signals.item_dropped)
crawler.signals.connect(ext.response_received, signal=signals.response_received)
# return the extension object
return ext
# 当spider开始爬取时发送该信号。该信号一般用来分配spider的资源,不过其也能做任何事
def spider_opened(self, spider):
print("====" * 20, "opened spider %s" % spider.name)
# 当某个spider被关闭时,该信号被发送。该信号可以用来释放每个spider在 spider_opened 时占用的资源
def spider_closed(self, spider):
print("====" * 20, "closed spider %s" % spider.name)
# 当item被爬取,并通过所有 Item Pipeline 后(没有被丢弃(dropped),发送该信号
def item_scraped(self, item, spider):
self.items_scraped += 1
if self.items_scraped % self.item_count == 0:
print("====" * 20, "scraped %d items" % self.items_scraped)
# 当item通过 Item Pipeline ,有些pipeline抛出 DropItem 异常,丢弃item时,该信号被发送
def item_dropped(self, item, spider, response, exception):
self.items_dropped += 1
if self.items_dropped % self.item_count == 0:
print("====" * 20, "dropped %d items" % self.items_dropped)
# 当引擎从downloader获取到一个新的 Response 时发送该信号
def response_received(self, response, request, spider):
now = datetime.datetime.now().strftime("%Y%m%d%H%M")
self.stats[now] += 1
# 记录响应异常的个数
if response.status in [401, 403, 404, 500, 501, 502]:
self.error_stats[now] += 1
# 当响应异常的比例大于0.2输出日志信息
if float(self.error_stats[now]) / self.stats[now] > 0.2:
logger.warning("received %s response, "
"and %s of item is none 200 in %s" % \
(self.stats[now], self.error_stats[now], now))
settings
增加一个配置,看我们的代码,有一个判断逻辑if not crawler.settings.getbool(‘MYEXT_ENABLED’):
# 使用自定义的插件
MYEXT_ENABLED =True
在EXTENSIONS数组中增加我们的自定义扩展
EXTENSIONS = {
#'scrapy.extensions.telnet.TelnetConsole': None,
'qianmu.extensions.SpiderOpenCloseLogging': 1
}
为了禁用一个默认开启的扩展(比如,包含在
EXTENSIONS_BASE
中的扩展), 需要将其顺序(order)设置为None
内置扩展
扩展在扩展类被实例化时加载和激活,实例化代码必须在类的构造函数(init)中执行。
-
’scrapy.extensions.corestats.CoreStats’:0
-
名称:核心统计扩展
-
说明:如果统计收集器(stats collection)启用了,该扩展开启核心统计收集(参考 数据收集(Stats Collection))
-
-
’scrapy.telnet.TelnetConsole’:0
- 名称:Telnet控制台扩展
- 说明:提供了一个telnet控制台,telnet控制台通过TELNETCONSOLE_ENABLED配置项开启,服务器会监听TELNETCONSOLE_PORT指定的端口
-
’scrapy.extensions.memusage.MemoryUsage’:0
- 名称:内存使用扩展
- 说明:监听Scrapy进程内存使用量,如果使用内存量超过某个指定值,发送提醒邮件,如果超过某个指定值,关闭spider
-
’scrapy.extensions.memdebug.MemoryDebugger’:0
- 名称:内存调试扩展
- 说明:该扩展用于调试内存使用量,开启该扩展,需要打开MEMDEBUG_ENABLED配置项
-
’scrapy.extensions.closespider.CloseSpider’:0
- 名称:当某些状况发生,spider会自动关闭,用来为状况指定关闭方式
-
’scrapy.extensions.feedexport.FeedExporter’:0
-
’scrapy.extensions.logstats.LogStats’:0
- 名称:记录统计扩展
- 说明:记录基本的统计信息,比如爬取的页面和条目(items)
-
‘scrapy.extensions.spiderstate.SpiderState’:0
-
‘scrapy.extensions.throttle.AutoThrottle’:0
-
‘scrapy.extensions.statsmailer.StatsMailer’:0
- 名称:StatsMailer扩展
- 说明:这个简单的扩展可用来在一个域名爬取完毕时发送提醒邮件,包含Scrapy收集的统计信息。邮件会发送给通过STATSMAILER_RCPTS指定的所有接收人