mongodb-对数据去重后再进行统计 group

mongodb 对数据去重后再进行统计

chenwch

自身是mongo小白,对此问题,浏览好多博客文档,都没有找到太好的答案,汇总一下:

distinct 只是去重,并不会统计,返回的是列表,如下

db.clct.distinct("a");

返回:

"1",
"14",
"15",
"16",
"18"

如果需要进行分组统计,可以用$group

db.clct.aggregate([
  {$group:{_id:"$a",count:{$sum:1}}}
]);

返回:

{ "_id" : "56", "count" : 12 }
{ "_id" : "53", "count" : 386 }
{ "_id" : "55", "count" : 547946 }
{ "_id" : "52", "count" : 4979002 }
{ "_id" : "180857", "count" : 54232 }
{ "_id" : "51", "count" : 1989388 }
{ "_id" : "50", "count" : 263998 }

说回原题,在数据量比较小的情况下,可以用以下方式进行去重后统计,如下

db.clct.aggregate([
    {$match: {actid:"99"}},
    {$group: {_id: "$a"}},
    {$group: {_id: 1, count: {$sum: 1}}}
])

原理是,先使用第一个分组对指定键上的所有值去重,然后使用第二个分组统计这些值。

但是数据量较大的话,就会报Exceeded memory limit for $group, but didn't allow external sort. Pass allowDiskUse:true to opt in.错,大体意思是超出内存限制。

目前还没有找到针对数据量较大的情况下的办法,有好心的可以提供一下解决办法,多谢!!!!

 

多字段聚合

mongodb利用aggregate聚合group by多个字段

不屑哥

var result = db.orderMain.aggregate([
{$match:{
partnerId:{$eq:"aaa"}
}},
{$group:{
_id:{
    partnerId:"$partnerId",
    clientCode:"$shipper.clientCode",
    clientName:"$shipper.clientName",
    merchantName:"$shipper.contacts"}
}
}
])

//边读边取插入
while(result.hasNext()){
var next = result.next();
db.新建表.insert({
    _id:new ObjectId(),
    partnerId: next._id.partnerId,
    clientCode: next._id.clientCode,
    clientName: next._id.clientName,
    merchantId: new ObjectId(),
    merchantName: next._id.merchantName
})

$match先根据条件匹配数据

$group指定了多个字段进行筛选

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
你可以使用MongoDB的聚合框架来进行去重统计。下面是一个Java实现的例子: ```java import com.mongodb.MongoClient; import com.mongodb.client.AggregateIterable; import com.mongodb.client.MongoCollection; import com.mongodb.client.MongoDatabase; import static com.mongodb.client.model.Accumulators.*; import static com.mongodb.client.model.Aggregates.*; import static com.mongodb.client.model.Filters.*; import org.bson.Document; public class DistinctCountExample { public static void main(String[] args) { // 连接MongoDB MongoClient mongoClient = new MongoClient("localhost", 27017); // 获取数据MongoDatabase database = mongoClient.getDatabase("mydb"); // 获取集合 MongoCollection<Document> collection = database.getCollection("mycollection"); // 聚合查询 AggregateIterable<Document> iterable = collection.aggregate( Arrays.asList( // 分组统计去重后的数量 group("$field1", sum("count", 1)), // 投影出结果 project(fields(excludeId(), include("field1", "count"))) ) ); // 输出结果 for (Document document : iterable) { System.out.println(document.toJson()); } // 关闭连接 mongoClient.close(); } } ``` 这个例子中,我们使用了MongoDB的聚合框架来进行去重统计。首,我们使用`group`操作符对`field1`字段进行分组,并使用`sum`操作符来统计每个分组中元素的数量。然后,我们使用`project`操作符来投影出结果集,包含`field1`字段和去重后的`count`字段,即每个元素在`field1`字段中出现的次数。最终得到去重后的统计结果。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值