「Mongo」块操作初体验

本文介绍了在MongoDB中使用批量操作Bulk Write进行数据清洗和插入更新的实践,通过PyMongo模拟50w条数据进行测试。在Python 3.6.4环境中,与单条操作相比,Bulk Write在效率上显著提高,尤其是在插入和更新操作中。同时,Bulk Write允许混合多种操作,提供了更大的灵活性。尽管如此,过大规模的数据操作可能导致系统资源耗尽,甚至造成软件崩溃。
摘要由CSDN通过智能技术生成

在MongoDB中使用批量操作或块操作「Bulk Write」在效率上有非常大的提升,适合大量写操作

第一次尝试使用批量操作进行数据清洗,并且用PyMongo模拟了少量数据来进行测试,构造50w条数据进行插入或更新操作。
模拟环境:

PyMongo 3.6.1
MongoDB 3.4.7
Python 3.6.4 :: Anaconda, Inc.

模拟数据项:

items = [
    {'i': 0},
    {'i': 1},
    {'i': 2},
    {'i': 3},
    {'i': 4},
    ...
    {'i': 500000},
]

按条插入/更新的情况如下:

方法总数单次条数时间语句
save50w100:02:54db[‘test’].save(item)
insert50w100:02:50db[‘test’].insert(item)

insert批量插入的情况如下:

方法总数单次条数时间语句
insert50w1k00:00:07db[‘test’].insert(items)
insert50w10k00:00:08db[‘test’].insert(items)

块操作的情况如下:

方法总数单次时间语句
bulk_write + InsertOne50w1k00:00:09db[‘test’].bulk_write(list(map(InsertOne, items)))
bulk_write + InsertOne50w10k00:00:07db[‘test’].bulk_write(list(map(InsertOne, items)))
bulk_write + InsertOne50w50w00:00:09db[‘test’].bulk_write(list(map(InsertOne, items)))
bulk_write + ReplaceOne50w1k00:00:20db[‘test’].bulk_write(list(map(lambda item: ReplaceOne({‘_id’: item[‘_id’]}, item, upsert=True), items)))
bulk_write + ReplaceOne50w10k00:00:21db[‘test’].bulk_write(list(map(lambda item: ReplaceOne({‘_id’: item[‘_id’]}, item, upsert=True), items)))
bulk_write + ReplaceOne50w50w00:00:22db[‘test’].bulk_write(list(map(lambda item: ReplaceOne({‘_id’: item[‘_id’]}, item, upsert=True), items)))
bulk_write + UpdateOne50w1k00:00:20db[‘test’].bulk_write(list(map(lambda item: UpdateOne({‘_id’: item[‘_id’]}, {‘$set’: {‘i’: item[‘i’]}}, upsert=True),items)))
bulk_write + UpdateOne50w10k00:00:21db[‘test’].bulk_write(list(map(lambda item: UpdateOne({‘_id’: item[‘_id’]}, {‘$set’: {‘i’: item[‘i’]}}, upsert=True),items)))
bulk_write + UpdateOne50w50w00:00:22db[‘test’].bulk_write(list(map(lambda item: UpdateOne({‘_id’: item[‘_id’]}, {‘$set’: {‘i’: item[‘i’]}}, upsert=True),items)))
bulk_write + UpdateOne + InsertOne100w10k00:00:38db[‘test’].bulk_write(list(map(InsertOne, items1)) + list(map(lambda item: UpdateOne({‘_id’: item[‘_id’]}, {‘$set’: {‘i’: 0}}, upsert=True),items2)))

模拟代码如下:

import pymongo
import time
from pymongo import InsertOne, ReplaceOne, UpdateOne
from pymongo.errors import BulkWriteError

settings = {
    'MONGO_HOST': "***", # 数据库地址
    'MONGO_PORT': ***,   # 数据库端口
    'MONGO_DB': "***",   # 数据库名
    'MONGO_USER': "***", # 用户名
    'MONGO_PSW': "***",  # 密码
}
client = pymongo.MongoClient(host=settings['MONGO_HOST'],port=settings['MONGO_PORT'])
client.admin.authenticate(settings['MONGO_USER'], settings['MONGO_PSW'],mechanism='SCRAM-SHA-1')
db = client[settings['MONGO_DB']]

l1 = []
for i in range(500000, 1000001):
    l1.append({'i': i})

l2 = list(db['test'].find({}))

start_time = time.time()

page = 0
count = 10000

while True:
    skip = page * count
    page = page + 1
    items1 = l1[skip:skip + count]
    items2 = l2[skip:skip + count]
    items = list(map(InsertOne, items1)) + list(map(InsertOne, items1))
    try:
        db['test'].bulk_write( \
            list(map(InsertOne, items1)) + \
            list(map(lambda item: UpdateOne({'_id': item['_id']}, {'$set': {'i': 0}}, upsert=True),items2)))
    except BulkWriteError as bwe:
        print(bwe.details)
    else:
        print(page)
        if page == 50:
            break

end_time = time.time()
consume_time = end_time - start_time
consume_time = '{:0>2s}'.format(str(int(consume_time // 3600))) \
               + ':{:0>2s}'.format(str(int((consume_time // 60) % 60))) \
               + ':{:0>2s}'.format(str(int(consume_time % 60)))
print(consume_time)

注意:bulk_write(list)传入的list不能为空,会出现报错信息。

经过测试,可以看到批量操作与单条操作的写入效率相差非常大,Insert批量插入与Bulk Write快操作效率基本相同。
但bulk_write()可以将增删改操作合在一起,具有更好的灵活性。


吐槽:手贱循环了一个亿的数据进列表,系统直接跑死机了,PyCharm/SecureCRT/Studio 3T环境全部崩溃,连搜狗输入法都崩了!!!摔!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值