python--mongodb查询优化

最新推荐文章于 2024-08-12 07:45:00 发布

浮生未歇__

最新推荐文章于 2024-08-12 07:45:00 发布

阅读量2.5k

点赞数 5

本文链接：https://blog.csdn.net/weixin_43072954/article/details/91973329

版权

最近在处理爬取之后存储在mongodb上的数据.数据量150w左右.整个流程为：提取所有存储在mongodb中的数据–数据转换–对接Java服务上redis–数据上线

最初方案：

from pymongo import MongoClient
con = MongoClinet(host,port)
collections = con[db][collection]
# find({条件查询},{需要显示的字段1为显示，0为不显示})
data = collections.find({},{"_id":0})
data_num = estimated_document_count() # 获取数据总数
for cursor in range(data_num):
	print(data[cursor])

这种常见的查询读取当数据达到上万的时候读取时间会从0.01慢慢增加到几秒.这个时候了解到了python对接mongo返回回来的是游标，使用find函数返回的是一个生成器，需要配合for循环取读取数据而我们大量的时间就消耗在了游标耗时中.

优化方案二：

在发现了这个问题的时候进行了方案第二次的优化采用了网上常见的skip,limit配合

from pymongo import MongoClient
con = MongoClinet(host,port)
collections = con[db][collection]
data_num = estimated_document_count()
# find({条件查询},{需要显示的字段1为显示，0为不显示})
for num in range(0,data_num,1000):
# skip表示限制前面的数据,limit表示显示多少数据,两者结合表示为翻页 
	result = collections.find({},{"_id":0}).skip(num).limit(1000)
	# 此为读取整页数据
	for number in range(1000):
		print(result[number])

此方案适合数据量在5万一下的小数据进行操作，当数据量超过5万查询查询可能会达到几十秒慢搜索

优化方案三：

当达到上5万以上的时候发现真的跑不动简直心累几十秒一条数据一百多万数据怎么跑？而且2天内要上线,查了一圈的资料发现网上几乎都是skip,limit，然而问题就出现在skip上当数据达到一定量的时候skip受限影响速度翻阅了一些书恍然想起两点没有做,解决方案为2点

使用关键字作为MONGO索引，通过mongo语句设置db.user.ensureIndex({“name”:1}),可以使用db.user.find().explain()或者explain(“executionStats”)可以查看到当进行搜索的时候不再是全表搜素而且通过索引搜索，速度快上10倍以上
使用索引进行排序（或者也可以复合索引查询）

from pymongo import MongoClient
con = MongoClinet(host,port)
collections = con[db][collection]
data_num = collections.estimated_document_count()
# find({条件查询},{需要显示的字段1为显示，0为不显示})
remember = None
cursor = collections.find({},{"_id":0}).limit(100)
if remember:
#记录下索引并利用所以进行查找,查询比已记录的索引$gt为更大的数据也可以使用$lt等,sort为将索引排序
#建议索引为int，或者string类的数字，在mongo里面索引string为数字也会根据数字大小排序
	cursor = collections.find({"index":{"$gt":remember}},{"_id":0}).sort({"index":1}).limit(100)
for num in range(100):
	data = cursor[num]
	remember = data["index"]

此方案适用于大多数查询

优化方案四：

此方案为最终版，目前为止是所有流程跑完5秒左右上线100条数据,一天能将目前数据库中的所有数据全部上线.
我们一般使用的pymongo为同步,而这次方案中使用的是一个异步模块motor


import asyncio
from motor.motor_asyncio import AsyncIOMotorClient
	
MONGO = AsyncIOMotorClient(host="localhost", port="27017")
MONGO_DATA = MONGO["db"]["collection"]
async def find_data():
	cursor = collections.find({},{"_id":0}).limit(100)
	rember = None
	if remember:
		cursor = collections.find({"index":{"$gt":remember}},{"_id":0}).sort({"index":1}).limit(100)
		for data in await data.to_list(length=100):
			print(data)

motor操作不做细说，一般的操作基本上都是一样的，需要详情一些的操作命令推荐可以看看[https://www.cnblogs.com/syncnavigator/p/10193493.html]
如果需要了解关于mongo的性能调优推荐可以看看[https://blog.csdn.net/happy_jijiawei/article/details/53737858]这篇文章
如果在需要对数据库更深的了解公司大佬是让我直接去看关于mysql相关知识书，一通百通.
看到一篇文章上面写的一句话很赞同：好的性能不是调出来的，是设计出来的.
实践基于知识，好的设计基于对对象的了解.