解决mongod百万级数据去重

mongodb的表结构如下

注:图上看的眼花缭乱,这个是模拟生成环境下的数据,我不得不做了一些处理。

假定:图中表格数据操作100万条,以name和introduction为依据,对数据进行去重。

首先想到的是distinct,但这个是两个字段,不好处理。还有一个就是:数据量一旦大的时候,distinct不仅仅是性能下降的问题,而是会出现超出内存阈值的异常,直接导致这个功能使用不了。

"errmsg" : "distinct too big, 16mb cap",

对于mongodb我就是一个小白,百度了也没有找到,google又都是洋文(等我看懂了,估计我被炒鱿鱼回家了)。

其他不说,说了那么多也没人看,直接上代码。

db['mycollection'].aggregate([
	//对特定的字段分组
	{$group:{_id:{name:"$name", introduction:"$introduction"},total:{$sum:1}}},
	//过滤分组的字段,选择显示大于一条的数据
	{$match:{total:{$gt:1}}}, 
	//{$limit:2000}, 
	{$sort:{total:-1}},    //排序
 ],
 	//加上这个条件就是避免出现超出内存阈值的异常
	{ allowDiskUse: true }
 ).forEach(function(event) {
 	//对重复数据进行去重
 	var i = 0;
 	db['mycollection'].find({"name":event._id.name, "introduction":event._id.introduction, "delete": { $ne: "1" } }).forEach(function(n) {
 	  	if(i==0) {
 	  	  	//第一条数据不去重
 	  		print("_id"+n._id + "**name"+n.name);
 	  	};
 		if(i > 0) {
 		  	
 			//db['baike.figure_new'].update("_id", n._id, "delete":"1");		
 			//重复数据使用delete字段标注,验证该数据是否重复数据
 			db['baike.figure_new'].update({"_id":ObjectId(''+n._id+'')}, {$set:{"delete":"1"}});
 		};
 		i++;
 	});
 	//print(event._id.name + "  " + event._id.introduction);
 	
 })

代码中有注释,供大家参考。

代码在生产环境下验证过了,水平有限可能还存在错误和想给我建议,邮件:chenrui@marsdl.com

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值