hadoop
gaochao1995
这个作者很懒,什么都没留下…
展开
-
Apache Hadoop生态系统
Hadoop从诞生至今已经发展成为一个大数据相关的庞大的软件生态系统。这里收集整理了跟Hadoop相关的Apache下的开源项目,以供后续分析研究。 Apache Hadoop Hadoop是一个大数据处理框架,它可用于从单台到数以千计的服务器集群的存储和计算服务。HadoopDistributed File System (HDFS) 提供了能够跨越多台计算机的大数据存储服务,而MapRed转载 2014-06-24 12:15:43 · 457 阅读 · 0 评论 -
Hadoop添加删除节点
添加节点 1.修改host 和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上,启动服务 [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode [root@slave转载 2015-01-15 14:07:05 · 315 阅读 · 0 评论 -
Hadoop常见问题及解决办法
转载于:http://blog.csdn.net/jiedushi/article/details/6699032 1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序转载 2015-01-15 14:03:30 · 980 阅读 · 0 评论 -
hadoop2.0 知识汇总
hadoop1.x RPC的序列化需要对象实现Write原创 2014-06-21 21:15:39 · 409 阅读 · 0 评论 -
HDFS Federation(HDFS 联盟)介绍
http://blog.csdn.net/strongerbit/article/details/7013221转载 2014-07-27 00:12:44 · 365 阅读 · 0 评论 -
Hadoop家族学习路线图
http://blog.fens.me/hadoop-family-roadmap/转载 2014-08-27 15:37:49 · 313 阅读 · 0 评论 -
详解MapReduce执行过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2014-09-05 14:42:34 · 793 阅读 · 0 评论 -
Writing an Hadoop MapReduce Program in Python
In this tutorial I will describe how to write a simpleMapReduce program for Hadoop in thePython programming language. Motivation Even though the Hadoop framework is written in Java, programs for H转载 2014-08-03 18:30:43 · 430 阅读 · 0 评论 -
Hadoop SequenceFile
Hadoop SequenceFile 是一个由二进制形式key/value的字节流组成的存储文件,SequenceFile可压缩可切分,非常适合hadoop文件存储特性,SequenceFile的写入由SequenceFile.Writer来实现, 根据压缩类型SequenceFile.Writer又派生出两个子类SequenceFile.BlockCompressWriter和Sequence转载 2014-06-25 16:35:58 · 599 阅读 · 0 评论 -
详解hadoop1.0 MapReduce job 提交过程
从整个Job运行的流程来看,如下图所示: 从上图可以看到,MapReduce运行过程中涉及有4个独立的实体: Client,用于提交MapReduce job。JobTracker,负责协调job的运行。TaskTrackers,运行 job分解后的多个tasks,task主要是负责运行Mapper和Reducer。Distributed filesystem,用于存储上述实体转载 2015-04-02 16:17:48 · 645 阅读 · 0 评论