mongodb分组去重

db.runCommand({
	            distinct:"person",//表
				key:"country"//为person表中的country去重
               })

db.runCommand({group:{
	ns:"persons",//集合的名称
	key:{"country":true},//分组的键对象
	initial:{m:0},//初始化累加器
	$reduce:function(doc,prev){//分解器 会把累加器(prev)传入到分解器 doc表示当前的对象
		if(doc.m > prev.m){
			prev.m = doc.m;
			prev.name = doc.name;
			prev.country = doc.country;
		}
	},
	condition:{m:{$gt:90}}
}})

db.runCommand({group:{
	ns:"persons",
	key:{"country":true},
	initial:{m:0},
	$reduce:function(doc,prev){
		if(doc.m > prev.m){
			prev.m = doc.m;
			prev.name = doc.name;
			prev.country = doc.country;
		}
	},
	finalize:function(prev){
		prev.m = prev.name+" Math scores "+prev.m
	},
	condition:{m:{$gt:90}}
}})

db.persons.insert({
	name:"USPCAT",
	age:27,
	email:"2145567457@qq.com",
	c:89,m:100,e:67,
	counTry:"China",
	books:["JS","JAVA","EXTJS","MONGODB"]
})

db.runCommand({group:{
	ns:"persons",
	$keyf:function(doc){
		if(doc.counTry){
			return {country:doc.counTry}
		}else{
			return {country:doc.country}
		}
	},
	initial:{m:0},
	$reduce:function(doc,prev){
		if(doc.m > prev.m){
			prev.m = doc.m;
			prev.name = doc.name;
			if(doc.country){
				prev.country = doc.country;
			}else{
				prev.country = doc.counTry;
			}
		}
	},
	finalize:function(prev){
		prev.m = prev.name+" Math scores "+prev.m
	},
	condition:{m:{$gt:90}}
}})

mongodb中的分组聚合用$group,它是不能进行sort的,而且处理的最大数据量为100M如果超出需要写入到磁盘,使用格式如下:

{ $group: { _id: <expression>, <field1>: { <accumulator1> : <expression1> }, ... } }

其中_id属性是必须要有的,目的是用来指定分组的字段或依据,field1为自定义字段,accumulator为累加器,下面以统计每天用户注册数为列

db.user.aggregate([
  {
    $group:{
      _id:{
        year:{$year:"$time"},//time为注册时间 $year表示获取年份
        month:{$month:"$time"},//$month获取月份
        day:{$dayOfMonth:"$time"}//$dayOfMonth获取多少号
      }
      count:{$sum:1}//$sum为累计,1表示累加数
    }
  }
])

如果只想注册地区为四川的则在$goup前增加一个$match(match必须放在第一位):

{
    $match:{
         location:"SiChuan"
    }
},

以上两个聚合操作的java实现方式:

DBObject filterCond = new BasicDBObject();
filterCond.put("location", "SiChuan");
DBObject match = new BasicDBObject("$match", filterCond);

DBObject group = new BasicDBObject();
DBObject groupDate = new BasicDBObject();
groupDate.put("year", new BasicDBObject("$year", "$time"));
groupDate.put("month", new BasicDBObject("$month", "$time"));
groupDate.put("day", new BasicDBObject("$dayOfMonth", "$time"));
group.put("$group", new BasicDBObject("_id", groupDate));
AggregationOutput output = coll.aggregate(match, group); 
Iterator iterator = output.results().iterator();

mongodb中的分组聚合用$group,它是不能进行sort的,而且处理的最大数据量为100M如果超出需要写入到磁盘,使用格式如下:

{ $group: { _id: <expression>, <field1>: { <accumulator1> : <expression1> }, ... } }

其中_id属性是必须要有的,目的是用来指定分组的字段或依据,field1为自定义字段,accumulator为累加器,下面以统计每天用户注册数为列

db.user.aggregate([
  {
    $group:{
      _id:{
        year:{$year:"$time"},//time为注册时间 $year表示获取年份
        month:{$month:"$time"},//$month获取月份
        day:{$dayOfMonth:"$time"}//$dayOfMonth获取多少号
      }
      count:{$sum:1}//$sum为累计,1表示累加数
    }
  }
])

如果只想注册地区为四川的则在$goup前增加一个$match(match必须放在第一位):

{
    $match:{
         location:"SiChuan"
    }
},

以上两个聚合操作的java实现方式:

DBObject filterCond = new BasicDBObject();
filterCond.put("location", "SiChuan");
DBObject match = new BasicDBObject("$match", filterCond);

DBObject group = new BasicDBObject();
DBObject groupDate = new BasicDBObject();
groupDate.put("year", new BasicDBObject("$year", "$time"));
groupDate.put("month", new BasicDBObject("$month", "$time"));
groupDate.put("day", new BasicDBObject("$dayOfMonth", "$time"));
group.put("$group", new BasicDBObject("_id", groupDate));
AggregationOutput output = coll.aggregate(match, group); 
Iterator iterator = output.results().iterator();

第一次写博客,才发现语言组织能力真差,累死了,下班~~~

更多的聚合操作请参见这》》》http://docs.mongodb.org/manual/reference/operator/aggregation-pipeline/


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值