MongoDB MapReduce学习笔记

最新推荐文章于 2024-11-03 11:47:29 发布

kubao_jh

最新推荐文章于 2024-11-03 11:47:29 发布

阅读量208

点赞数

分类专栏： MongoDB 文章标签： mongodb mapreduce

MongoDB 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

MapReduce应该算是MongoDB操作中比较复杂的了，自己开始理解的时候还是动了动脑子的，所以记录在此！

命令语法：详细看

 
         db.runCommand( 
        
         { mapreduce : 字符串，集合名, 
        
         map : 函数,见下文 
        
         reduce : 函数，见下文 
        
         [, query : 文档，发往map函数前先给过渡文档] 
        
         [, sort : 文档，发往map函数前先给文档排序] 
        
         [, limit : 整数，发往map函数的文档数量上限] 
        
         [, out : 字符串，统计结果保存的集合] 
        
         [, keeptemp: 布尔值，链接关闭时临时结果集合是否保存] 
        
         [, finalize : 函数，将reduce的结果送给这个函数，做最后的处理] 
        
         [, scope : 文档,js代码中要用到的变量] 
        
         [, jsMode : 布尔值，是否减少执行过程中BSON和JS的转换，默认 
         true 
         ]  
         //注：false时 BSON-->JS-->map-->BSON-->JS-->reduce-->BSON,可处理非常大的mapreduce,<br>　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　//true时BSON-->js-->map-->reduce-->BSON 
        
         [, verbose : 布尔值，是否产生更加详细的服务器日志，默认 
         true 
         ] 
        
         } 
        
         );

测试数据：

现在我要统计同一age的name,也就是像如下的结果：

{age:0,names:["name_6","name_12","name_18"]}
{age:1,names:["name_1","name_7","name_13","name_19"]}
......

第一步是写映射（Map）函数,可以简单的理解成分组吧~

var m=function(){
    emit(this.age,this.name);
}

emit的第一个参数是key，就是分组的依据，这是自然是age了，后一个是value，可以是要统计的数据，下面会说明，value可以是JSON对象。
这样m就会把送过来的数据根据key分组了，可以想象成如下结构：

第一组
{key:0,values: ["name_6","name_12","name_18"]

第二组
{key:1,values: ["name_1","name_7","name_13","name_19"]
......

组中的key其实就是age的值了，values是个数组，数组内的成员都有相同的age!!。

第二步就是简化了，编写reduce函数：

var r=function(key,values){
    var ret={age:key,names:values};
    return ret;
}

reduce函数会处理每一个分组，参数也正好是我们想像分组里的key和values。

这里reduce函数只是简单的把key和values包装了一下，因为不用怎么处理就是我们想要的结果了，然后返回一个对象。对象结构正好和我们想象的相符！：

{age:对应的age，names:[名字1，名字2..]}

最后，还可以编写finalize函数对reduce的返回值做最后处理：

var f=function(key,rval){
    if(key==0){
        rval.msg="a new life,baby!";
    }
    return rval
}

这里的key还是上面的key，也就是还是age,rval是reduce的返回值，所以rval的一个实例如：{age:0,names:["name_6","name_12","name_18"]},

这里判断 key 是不是 0 ,如果是而在 rval 对象上加 msg 属性，显然也可以判断 rval.age==0,因为 key 和 rval.age 是相等的嘛！！

这里其他的选项就不说了，一看就知道。

运行：

db.runCommand({
    mapreduce:"t",
    map:m,
    reduce:r,
    finalize:f,
    out:"t_age_names"
    }
)

结果导入到 t_age_names 集合中，查询出来正是我想要的结果，看一下文档的结构，不难发现，_id 就是 key，value 就是处理后的返回值。

kubao_jh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录