mongo mapreduce java,Mongodb高级篇-MapReduce

奶油甜甜圈

于 2021-03-16 23:57:15 发布

阅读量207

点赞数

文章标签： mongo mapreduce java

Mongodb支持使用javascript编写mapreduce函数来做分布式数据处理。然而，这种强大是有代价的：MapReduce非常慢，不应该用在实时的数据分析中。

举个MapReduce使用的例子，我们有一个orders表，包含cust_id,amount,status三个字段，现在我们有统计同一个cust_id的订单的总额。

可以像下面这样写：

5a24629e1126

map-reduce

执行顺序显而易见：

1、执行query筛选出特定数据

2、执行map返回键值对，这里的值可以是一个list

3、执行reduce对value求sum

4、得到名为order_totals的结果

上面这个例子是挂在官网上的。但是实际使用时按照这个写就是无法通过....

详细命令：

db.runCommand(

{

mapreduce : 字符串，集合名,

map : 函数,见下文

reduce : 函数，见下文

[, query : 文档，发往map函数前先给过渡文档]

[, sort : 文档，发往map函数前先给文档排序]

[, limit : 整数，发往map函数的文档数量上限]

[, out : 字符串，统计结果保存的集合]

[, keeptemp: 布尔值，链接关闭时临时结果集合是否保存]

[, finalize : 函数，将reduce的结果送给这个函数，做最后的处理]

[, scope : 文档,js代码中要用到的变量]

[, jsMode : 布尔值，是否减少执行过程中BSON和JS的转换，默认true] //注：false时 BSON-->JS-->map-->BSON-->JS-->reduce-->BSON,可处理非常大的mapreduce,//true时BSON-->js-->map-->reduce-->BSON

[, verbose : 布尔值，是否产生更加详细的服务器日志，默认true]

}

);

找了一个简单一点的例子，可以尝试做一下。

首先生成1000条测试数据。

for (var i=0; i<1000; i++) {

db.t.insert({

"name" : "user"+i,

"age":i ,

"created_at" : new Date()

});

}

创建map函数：

var m=function(){

emit(this.age,this.name);

}

emit：返回一个键值对。emit的第一个参数是key，就是分组的依据，这是自然是age了，后一个是value，可以是要统计的数据，下面会说明，value可以是JSON对象。

这样m就会把送过来的数据根据key分组了，可以想象成如下结构：

第一组

{key:0,values: ["name_6","name_12","name_18"]

第二组

{key:1,values: ["name_1","name_7","name_13","name_19"]

......

第二步就是简化了，编写reduce函数：

var r=function(key,values){

var ret={age:key,names:values};

return ret;

}

reduce函数会处理每一个分组，参数也正好是我们想像分组里的key和values。

这里reduce函数只是简单的把key和values包装了一下，因为不用怎么处理就是我们想要的结果了，然后返回一个对象。对象结构正好和我们想象的相符！

最后，还可以编写finalize函数对reduce的返回值做最后处理：

var f=function(key,rval){

if(key==0){

rval.msg="a new life,baby!";

}

return rval

}

这里的key还是上面的key，也就是还是age,rval是reduce的返回值，所以rval的一个实例如：{age:0,names:["name_6","name_12","name_18"]},

这里判断 key 是不是 0 ,如果是而在 rval 对象上加 msg 属性，显然也可以判断 rval.age==0,因为 key 和 rval.age 是相等的嘛！！

db.runCommand({

mapreduce:"t",

map:m,

reduce:r,

finalize:f,

out:"t_age_names"

}

)

db.t_age_names.find()

结果导入到 t_age_names 集合中，查询出来正是想要的结果，看一下文档的结构，不难发现，_id 就是 key，value 就是处理后的返回值。

map-reduce的性能优化

map-reduce运行于sharding

比较一下map-reduce运行于sharding和单个实例下的性能。

插入10万条数据：

for (var i=0; i<100000; i++) {

db.t.insert({"name" : "user"+i,"age":i ,"created_at" : new Date()});

}

用map-reduce来查询sharding下实例:

db.runCommand({ mapreduce:"t", map:m, reduce:r, finalize:f, sort:{"age":-1}, out:"t_age_names" })

{

"result" : "t_age_names",

"timeMillis" : 5082,

"counts" : {

"input" : 101000,

"emit" : 101000,

"reduce" : 1000,

"output" : 100000

},

"ok" : 1

}

运行时间是5秒左右。

在单机单实例下运行：

{

"result" : "t_age_names",

"timeMillis" : 4820,

"counts" : {

"input" : 101000,

"emit" : 101000,

"reduce" : 1000,

"output" : 100000

},

"ok" : 1

}

单机单实例下只需要4.8秒。比单机sharding要快。(因为sharding是有开销的)。

参考资料:

奶油甜甜圈

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mongo mapreduce java,Mongodb高级篇-MapReduce

Mongodb支持使用javascript编写mapreduce函数来做分布式数据处理。然而，这种强大是有代价的：MapReduce非常慢，不应该用在实时的数据分析中。举个MapReduce使用的例子，我们有一个orders表，包含cust_id,amount,status三个字段，现在我们有统计同一个cust_id的订单的总额。可以像下面这样写：map-reduce执行顺序显而易见：1、执行qu...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。