【Python3 爬虫学习笔记】pyspider框架的使用 6

最新推荐文章于 2024-08-08 08:57:55 发布

htsait4113

最新推荐文章于 2024-08-08 08:57:55 发布

阅读量543

点赞数

分类专栏：学习笔记

学习笔记专栏收录该内容

82 篇文章 2 订阅

订阅专栏

任务区分

在pyspider判断两个任务是否是重复的是使用该任务对应的URL的MD5值作为任务的唯一ID，如果ID相同，那么两个任务就会判定为相同，其中一个就不会爬取了。很多情况下请求的链接可能是同一个，但是POST的参数不同。这时可以重写task_id()方法，改变这个ID的计算方式来实现不同的区分，如下所示：

import json
from pyspider.libs.utils import md5string
def get_taskid(self, task):
	return md5string(task['url']+json.dumps(task['fetch'].get('data', '')))

这里重写了get_taskid()方法，利用URL和POST的参数来生成ID。这样一来，即使URL相同，但是POST的参数不同，两个任务的ID就不同，它们就不会被识别成重复任务。

全局配置

pyspider可以使用crawl_config来指定全局的配置，配置中的参数会和crawl()方法创建任务时的参数合并。如要全局配置一个Headers，可以定义如下代码：

class Handler(BaseHandler):
	crawl_config = {
		'headers':{
			'User-Agent':'GoogleBot',
		}
	}

定时爬取

我们可以通过every属性来设置爬取的时间间隔，如下所示：

@every(minutes=24 * 60)
def on_start(self):
	for url in urllist:
		self.crawl(url, callback=self.index_page)

这里设置了每天执行一次爬取。
在上文中我们提到了任务的有效时间，在有效时间内爬取不会重复。所以要把有效时间设置得比重复时间更短，这样才可以实现定时爬取。
例如，下面的代码就无法做到每天爬取：

@every(minutes=24 * 60)
def on_start(self):
	self.crawl('http://www.example.org/', callback=self.index_page)

@config(age=10 * 24 * 60 * 60)
def index_page(self):
	pass