使用Python做大型计算任务时,并且用mongodb做数据储存时,常常面临大量读写数据库的情况。尤其是大量更新任务,由于不能批量操作,使用pymongo同步操作的话,相当耗时。
使用多线程、多进程确实有效,但编写麻烦、消耗系统资源大(pymongo还不允许fork线程中共用连接)。这里主要瓶颈在于IO,使用单线程异步操作就会效果很好。
Motor是一个异步mongodb driver,支持异步读写mongodb。它通常用在基于Tornado的异步web服务器中。
Motor同时支持使用asyncio(Python3.4以上标准库)作为异步模型,使用起来十分方便。
下面是一个对比例子。从某个mongodb集合中,遍历读取所有数据,并update回去。update速度是主要瓶颈。
这里我们事先定义好,数据库位于127.0.0.1:27017,数据库名为testdb,集合名为test。我们处理其中title和content两个较大的字段。
host = '127.0.0.1'
port = 27017
database = 'testdb'
下面是使用pymongo同步处理的例子:
from pymongo import MongoClient
connection = MongoClient(
host,
port
)
db = connection[database]
for doc in db.post.find({}, ['item_id', 'title', 'content']):<