MongoDB根据多字段去重

原文链接

(18条消息) MongoDB百万级数据去重_不会编程的小猿的博客-CSDN博客

查询重复项

原集合

mongo查询语句

// 集合名称
db.result_msgv1_copy1.aggregate([
	{
			//重复字段
			$group:{_id:{send_date: "$send_date", GliderID_Irid: "$GliderID_Irid"},count:{$sum:1}}
	},
	{
			$match:{count:{$gt:1}}
	}
],{allowDiskUse:true})

运行结果

删除重复项

mongo去重语句

// 集合名称
db.result_msgv1_copy1.aggregate([
	{
			//重复字段,send_date + GliderID_Irid 都重复
      $group:{_id: {send_date: "$send_date", GliderID_Irid: "$GliderID_Irid"},count:{$sum:1},dups:{$addToSet:'$_id'}}//若重复则把_id加入dups数组
	},
	{
      $match: {count: {$gt: 1}}
  }

],{allowDiskUse: true}).forEach( //循环删除_id对应的数据
    function(doc){ 
        doc.dups.shift(); 
				//集合名称
        db.result_msgv1_copy1.remove(
            {
                _id: {
                    $in: doc.dups
                }
            }
        ); 
    }
)

运行结果

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你可以使用MongoDB的聚合框架来进行去重统计。下面是一个Java实现的例子: ```java import com.mongodb.MongoClient; import com.mongodb.client.AggregateIterable; import com.mongodb.client.MongoCollection; import com.mongodb.client.MongoDatabase; import static com.mongodb.client.model.Accumulators.*; import static com.mongodb.client.model.Aggregates.*; import static com.mongodb.client.model.Filters.*; import org.bson.Document; public class DistinctCountExample { public static void main(String[] args) { // 连接MongoDB MongoClient mongoClient = new MongoClient("localhost", 27017); // 获取数据库 MongoDatabase database = mongoClient.getDatabase("mydb"); // 获取集合 MongoCollection<Document> collection = database.getCollection("mycollection"); // 聚合查询 AggregateIterable<Document> iterable = collection.aggregate( Arrays.asList( // 分组统计去重后的数量 group("$field1", sum("count", 1)), // 投影出结果 project(fields(excludeId(), include("field1", "count"))) ) ); // 输出结果 for (Document document : iterable) { System.out.println(document.toJson()); } // 关闭连接 mongoClient.close(); } } ``` 这个例子中,我们使用了MongoDB的聚合框架来进行去重统计。首先,我们使用`group`操作符对`field1`字段进行分组,并使用`sum`操作符来统计每个分组中元素的数量。然后,我们使用`project`操作符来投影出结果集,包含`field1`字段去重后的`count`字段,即每个元素在`field1`字段中出现的次数。最终得到去重后的统计结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值