Hadoop
_佚名-2022_
道虽迩,不行不至;事虽小,不为不成。
展开
-
hadoop-client命令使用
1.hadoop命令的使用方法 hadoop的命令的使用,都是用{Hadoop_HOME}/bin/hadoop脚本来调用的。2.常用的hadoop命令有:./bin/hadoop fs 用来操作分布式文件系统的命令./bin/hadoop distcp 用来在同一个hadoop集群或不同hadoop集群间进行数据的拷贝操作。./bin/had原创 2015-10-25 19:19:05 · 5367 阅读 · 0 评论 -
YARN与MapReduce
1.hadoop v1与hadoop v2的不同原创 2014-10-04 23:39:50 · 549 阅读 · 0 评论 -
Hadoop Speculative Execution - Hadoop推测执行
1.推测执行所谓的推测执行,就是当所有task都开始运行之后,Job Tracker会统计所有任务的平均进度,如果某个task所在的task node机器配置比较低或者CPU load很高(原因很多),导致任务执行比总体任务的平均执行要慢,此时Job Tracker会启动一个新的任务(duplicate task),原有任务和新任务(一个task会有多个attempt同时执行)哪个先执行完就把转载 2014-08-23 09:37:15 · 960 阅读 · 0 评论 -
Hadoop计算中的Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽转载 2014-07-13 20:01:11 · 390 阅读 · 0 评论 -
Lucene、Nutch和Hadoop三者之间的关系
1.Lucene、Nutch和Hadoop三者之间的关系 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为止,Hadoop 还不是那么广为人知,其最新的版本号也仅仅是 0.16,距离 1.原创 2014-08-03 23:33:09 · 1875 阅读 · 0 评论 -
Linux平台下安装和配置Hadoop集群
前提:我们以在三台主机组成的集群上配置Hadoop为例,来介绍Hadoop集群的配置过程。为此,我们做如下规划: h1:10.37.128.2—NameNode,JobTracker(角色为主节点master) h2:10.37.128.3—DataNode,TaskTracker(角色为从节点slave) h3:10.37.128.4—原创 2014-01-14 21:41:30 · 779 阅读 · 0 评论 -
Hadoop生态圈小结
1.如今Hadoop已经发展成为包含很多项目的集合。虽然Hadoop的核心内容是MapReduce和Hadoop分布式文件系统,但与Hadoop相关的Common、Avro、Chukwa、Hive、HBase等项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。Hadoop项目结构图如下所示: 2.原创 2014-01-11 21:44:18 · 933 阅读 · 0 评论