解决mongod百万级数据去重

最新推荐文章于 2024-06-27 17:27:09 发布

Hello_Ray

最新推荐文章于 2024-06-27 17:27:09 发布

阅读量2.4k

点赞数 1

本文链接：https://blog.csdn.net/Hello_Ray/article/details/80772038

版权

mongodb的表结构如下

注：图上看的眼花缭乱，这个是模拟生成环境下的数据，我不得不做了一些处理。

假定：图中表格数据操作100万条，以name和introduction为依据，对数据进行去重。

首先想到的是distinct，但这个是两个字段，不好处理。还有一个就是：数据量一旦大的时候，distinct不仅仅是性能下降的问题，而是会出现超出内存阈值的异常，直接导致这个功能使用不了。

"errmsg" : "distinct too big, 16mb cap",

对于mongodb我就是一个小白，百度了也没有找到，google又都是洋文（等我看懂了，估计我被炒鱿鱼回家了）。

其他不说，说了那么多也没人看，直接上代码。

db['mycollection'].aggregate([
	//对特定的字段分组
	{$group:{_id:{name:"$name", introduction:"$introduction"},total:{$sum:1}}},
	//过滤分组的字段，选择显示大于一条的数据
	{$match:{total:{$gt:1}}}, 
	//{$limit:2000}, 
	{$sort:{total:-1}},    //排序
 ],
 	//加上这个条件就是避免出现超出内存阈值的异常
	{ allowDiskUse: true }
 ).forEach(function(event) {
 	//对重复数据进行去重
 	var i = 0;
 	db['mycollection'].find({"name":event._id.name, "introduction":event._id.introduction, "delete": { $ne: "1" } }).forEach(function(n) {
 	  	if(i==0) {
 	  	  	//第一条数据不去重
 	  		print("_id"+n._id + "**name"+n.name);
 	  	};
 		if(i > 0) {
 		  	
 			//db['baike.figure_new'].update("_id", n._id, "delete":"1");		
 			//重复数据使用delete字段标注，验证该数据是否重复数据
 			db['baike.figure_new'].update({"_id":ObjectId(''+n._id+'')}, {$set:{"delete":"1"}});
 		};
 		i++;
 	});
 	//print(event._id.name + "  " + event._id.introduction);
 	
 })

代码中有注释，供大家参考。

代码在生产环境下验证过了，水平有限可能还存在错误和想给我建议，邮件：chenrui@marsdl.com

Hello_Ray

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
解决mongod百万级数据去重

mongodb的表结构如下注：图上看的眼花缭乱，这个是模拟生成环境下的数据，我不得不做了一些处理。假定：图中表格数据操作100万条，以name和introduction为依据，对数据进行去重。首先想到的是distinct，但这个是两个字段，不好处理。还有一个就是：数据量一旦大的时候，distinct不仅仅是性能下降的问题，而是会出现超出内存阈值的异常，直接导致这个功能使用不了...
复制链接

扫一扫