Mapreduce
文章平均质量分 90
过往记忆
这个作者很懒,什么都没留下…
展开
-
Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
直到目前,我们看到的所有Mapreduce作业都输出一组文件。但是,在一些场合下,经常要求我们将输出多组文件或者把一个数据集分为多个数据集更为方便;比如将一个log里面属于不同业务线的日志分开来输出,并交给相关的业务线。 用过旧API的人应该知道,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoop.原创 2013-11-28 09:48:40 · 5811 阅读 · 0 评论 -
Hadoop2.2.0中HDFS的高可用性实现原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无法利用,直到原创 2013-11-14 15:41:18 · 3578 阅读 · 1 评论 -
编写简单的Mapreduce程序并部署在Hadoop2.2.0上运行
经过几天的折腾,终于配置好了Hadoop2.2.0(如何配置在Linux平台部署Hadoop请参见本博客《在Fedora上部署Hadoop2.2.0伪分布式平台》),今天主要来说说怎么在Hadoop2.2.0伪分布式上面运行我们写好的Mapreduce程序。先给出这个程序所依赖的Maven包:01020304050607080910111213141516171819202122原创 2013-10-29 13:17:57 · 8706 阅读 · 1 评论 -
Hadoop1.x集群升级Hadoop2.x相关文章
1、《从Hadoop1.x集群升级到Hadoop2.x步骤》:http://www.iteblog.com/archives/8562、《从Hadoop1.x集群升级到Hadoop2.x失败回滚步骤》:http://www.iteblog.com/archives/8573、《Hadoop1.x程序升级到Hadoop2.x需要的依赖库》:http://www.iteblog.com/archive原创 2013-12-06 09:56:21 · 3902 阅读 · 0 评论