传统MapReduce框架

最新推荐文章于 2024-10-18 00:00:00 发布

baci1928

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量117

点赞数

文章标签： python 大数据 shell

原文链接：http://www.cnblogs.com/Donal/archive/2011/04/16/2018390.html

版权

传统的MapReduce框架是google于2004年在论文：“MapReduce: Simplified Data Processing on Large Clusters”提出的，该框架把一些数据密集型应用的数据处理过程简化抽象成map和reduce两个阶段，用户在设计分布式程序时，只要实现 map（）和reduce（）两个函数，至于其它细节，例如数据分片，任务调度，机器容错，机器间通信等，都交由MapReduce框架处理。随着技术的发展，在传统MapReduce框架的基础上，出现了一些针对特殊应用的MapReduce框架，主要有以下几种：

（1）支持迭代MapReduce的Twister和Haloop（参见我的博文：迭代式MapReduce框架介绍）.

（2）支持多阶段流式计算的Sector/Sphere(参见我的博文：流式MapReduce实现Sector/Sphere ‎).

（3）支持DAG（Directed Acyclic Graph）的Dryad和Cascading（参见文章：Dryad ， Cascading 以及 Cascading的主页）.

（4） MapReduce与Database结合的产物：HadoopDB 和 greenplum.

本文主要讲解当下较为出名的传统MapReduce开源实现。现在有非常多的开源MapReduce框架实现，最出名的莫过于Java实现版本Hadoop。实际上，它属于重量级的实现版本（代码量大），要理解其细节或者对其进行改进需要很大工作量。为了克服重量级实现存在的缺陷，一些轻量级的版本出现了，如erlang实现版本Disco，Python实现版本micemeat，bash版本 bashreduce等。

本文主要介绍Disco，粗略讲解micemeat和bashreduce。

传统MapReduce实现之Disco

1、概述

Disco是一个轻量级的MapReduce框架实现，核心模块使用Erlang语言实现，外部接口为易于编程的Python。同Hadoop一样，拥也有自己的分布式文件系统DDFS，不过DDFS是与计算框架高度耦合的。 Disco由诺基亚研究中心开发，用于处理实际应用中的大规模数据。

2、Disco的总体设计架构

Disco由分布式存储系统DDFS（Disco Distributed File System）和MapReduce框架组成，本节主要介绍Disco的总体设计架构，下面一节介绍DDFS。

Disco也是master/slave架构:

Disco master从client端接收作业，并将它们添加到作业队列中，以便进行调度。

Client processes是一些python程序，它们使用函数disco.job()向master提交作业。

Worker supervision是由master启动的，每个节点启动一个，用于监控该节点上python worker的运行情况。

Python worker用于执行用户提交的作业。

输入文件是通过http获取的，但若要读取的文件在本地，直接从磁盘上获取即可。为了能够从个远程节点上获取数据，每个节点上进行一个httpd后台进程。

3、DDFS的架构

DDFS是嵌入到Disco中的，目前只有一个master节点（存在单点故障）。每个存储节点由一组磁盘或者卷宗组成(vol0..volN)，它们分别挂载在$DDFS_ROOT/vol0 … $DDFS_ROOT/volN。每个卷宗下面有两个文件，分别为tag 和 blob，分别用于存储标记（tag，相当于key）和标记对应的值（value）。DDFS会监控每个节点上的磁盘使用情况，并每隔一段时间进行负载均衡。

4、分布式索引Discodex

Discodex是专门为Disco设计的分布式索引系统。