hadoop
高自强的博客
这个作者很懒,什么都没留下…
展开
-
Hadoop系列--Hadoop基本架构之MapReduce架构
1 MapReduce架构的组件组成1.1 组件组成 Hadoop的MapReduce架构主要由以下几个组件组成:Client、JobTracker、TaskTracker、Task。1.2 MapReduce架构图 如下图所示。 2 各组件详解1.Client 用户编写的MapReduce程序通过Client提交到JobTracker。 2.JobTracker 参照上图。原创 2017-08-08 21:02:04 · 804 阅读 · 0 评论 -
Hadoop系列--Hadoop介绍(Hadoop是什么)
1 Hadoop概述Hadoop项目的目标是建立一个可扩展开源软件框架,能够对大数据进行可靠的分布式处理。 Hadoop框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。HDFS是一个分布式文件系统,具有低成本、高可靠性性、高吞吐量的特点。MapReduce是一个编程模型和软件框架。 简单理解,Hadoop是一个原创 2017-07-17 14:09:22 · 816 阅读 · 0 评论 -
Hadoop系列--Hadoop核心之MapReduce作业的生命周期
1 执行过程图解2 步骤详解原创 2017-08-12 16:13:16 · 554 阅读 · 0 评论 -
Hadoop系列--datanode无法启动及Incompatible namespaceIDs问题的解决
1 问题描述 使用jps命令查看Hadoop进程启动情况,发现datanode总是启动不起来。查看log,如下: 2017-08-11 14:46:04,213 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /hadoop/dat原创 2017-08-11 16:30:14 · 479 阅读 · 0 评论 -
Hadoop系列--Hadoop核心之MapReduce的原理
1 MapReduce核心原理 “分而治之,并行计算”是MapReduce的核心原理,其实也是大数据处理的中心思想。1.1 分而治之 在MapReduce中,分而治之,就是, 一个任务分成多个小的子任务(map),并行执行后,合并结果(reduce)。1.2 并行计算 在任务分配完之后,每个子任务平行执行,彼此之间是互不影响的,也就是并行计算,具体的子任务可以按照具体的标准进行。原创 2017-08-12 18:25:28 · 1423 阅读 · 0 评论 -
Hadoop系列--Hadoop再安装
1 安装步骤简介1.1 前言 讲真,上次的Hadoop的安装实际上是失败的,正应了那句话,Hadoop的学习是有一定的门槛的,从Hadoop的安装就可见一斑。 最近看了一些关于Hadoop的理论知识,对Hadoop的理解更进了一步,便决定重新安装一次Hadoop。1.2 安装大体步骤 因为Hadoop是Java语言开发的,所以必然需要Java的运行环境,那么就需要配置JDK,鉴于开发的效率原创 2017-08-08 16:08:35 · 1400 阅读 · 0 评论