关闭

Mongodb Mapreduce 初窥

742人阅读 评论(0) 收藏 举报

         在单台机器上做这种模型测试就效率上是得不尝失的(执行周期太长),特别是数据量特别大(比如3000w以上),所以应用(或运行)场景的选择很重要。

 上面所说的示例比较简单,都是在单一reduce任务中的执行场景,如下图:



          实际的生产环境要比上图复杂许多,比如多reduce任务情况,在Hadoop中,如果运行多个reduce任务,map任务会对其输出进行分区,为每个reduce任务创建一个分区(partition)。每个分区包含许多键(及其关联的值),但每个键的记录都在同一个分区中。分区可以通过用户定义的partitioner来控制。如下图: 


0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:1070414次
    • 积分:12319
    • 等级:
    • 排名:第1223名
    • 原创:227篇
    • 转载:82篇
    • 译文:3篇
    • 评论:143条