上篇爬虫文章中我引入了一个mongochache,这里发一下源码并做下简介。
在这个存储app中,使用了数据序列化和压缩,但是由于爬取的内容不算多,所以我在实际的应用中将这两个作用给注释掉了。
在这里我简单的写入了增删改查的一些应用,有点简陋,但是.....,对于一般的数据而言应该能够满足,具体代码如下:
import pickle #对象序列化
import zlib #压缩数据
from datetime import datetime,timedelta #设置缓存时间间隔
from pymongo import MongoClient
from bson.binary import Binary #mongoDB存储二进制的类型
import requests
class MongoCache:
def __init__(self,client=None,expires=timedelta(days=30)):
self.client=MongoClient('localhost')
self.db=self.client.LaGou
web_page=self.db.lagou
self.db.lagou.create_index('timestamp',expireAfterSeconds=expires.total_seconds())
def __setitem__(self, key, value):
# 将数据使用pickle序列化,再使用zlib压缩转换成Binary,使用格林威治时间
# record={'result':Binary(zlib.compress(pickle.dumps(value))),'timestamp':datetime.utcnow()}
# 使用url作为key存入系统默认的_id字段,存入数据可
self.db.lagou.update({'_id':key},{'$set':value},upsert=True)
def __getitem__(self, item): #字段的查询
record=self.db.lagou.find_one({'_id':item})
if record:
return pickle.loads(zlib.decompress(record['result']))
else:
raise KeyError(item+'does not exit')
def __contains__(self, item):
"""
当调用 in , not in 会调用该方法判断链接对于网址的数据是否在数据库中
:param item:
:return:
"""
try:
self[item]
except KeyError:
return False
else:
return True
def clear(self):
self.db.lagou.drop()
我是一个小白,这里肯定还有许多不足的地方,希望诸位加以指正,谢谢!