1.Scrapy提供用于监控及控制运行中的爬虫的web服务(service)
2.发送信号
from scrapy.xlib.pydispatch import dispatcher
dispatcher.connect(self.parse_open, signal=signals.spider_opened)
dispatcher.connect(self.parse_close, signal=signals.spider_closed)
3.数据收集(Stats Collection)
setting中
STATS_CLASS
默认: 'scrapy.statscol.MemoryStatsCollector'收集数据的类。该类必须实现 状态收集器(Stats Collector) API.
STATS_DUMP
默认: True当spider结束时dump Scrapy状态数据 (到Scrapy log中)。
常用的类,实现StatsCollector类
MemoryStatsCollector
DummyStatsCollector
2.发送信号
from scrapy.xlib.pydispatch import dispatcher
dispatcher.connect(self.parse_open, signal=signals.spider_opened)
dispatcher.connect(self.parse_close, signal=signals.spider_closed)
3.数据收集(Stats Collection)
setting中
STATS_CLASS
默认: 'scrapy.statscol.MemoryStatsCollector'收集数据的类。该类必须实现 状态收集器(Stats Collector) API.
STATS_DUMP
默认: True当spider结束时dump Scrapy状态数据 (到Scrapy log中)。
常用的类,实现StatsCollector类
MemoryStatsCollector
DummyStatsCollector