初识Hadoop及其名词解释---Hadoop学习(1)

最新推荐文章于 2024-05-06 11:37:09 发布

miaote

最新推荐文章于 2024-05-06 11:37:09 发布

阅读量5.6k

点赞数 1

分类专栏： Hadoop 文章标签： hadoop ubuntu 分布式计算

本文链接：https://blog.csdn.net/miaote/article/details/53029204

版权

今天开始学习hadoop的基本机制和基础知识，之前也迷迷糊糊在Ubuntu上配置过hadoop但是根本不懂很多配置参数和操作的原因，所以此次学习旨在真正地认识hadoop以及会它的一些用法。至少要知道我们用的所谓分布式计算工具，到底是什么，又由什么组成？用的书是《Hadoop基本教程》，感觉作者写的详细又不难懂。
1.元素组成
(1).HDFS(Hadoop Distributed FIle Sustem):即hadoop的分布式文件系统，以最小64MB的数据块存储文件，其中每一个存储节点上都有一个DataNode进程,由NameNode来进行协调（稍后会说到NameNode和DataNode这类Hadoop中节点名称的功能和解释）。
(2)MapReduce:Map是映射的意思，Reduce则可翻译为缩减。由此可知这个技术分为两个操作，map和reduce。简单来说，map将键值对形式的数据重新组合成新的键值对，而reduce 函数用来对键值对列表进行汇总。MapReduce使用的是分而治之的思路。
(3)hadoop上的节点
1.NameNode:NameNode是HDFS上的主节点，用于调度作业和移动数据块。
2.DataNode:DataNode是HDFS上的进程，负责从NameNode上接受指令。
3.JobTracker：是Mapreduce上的主节点，也是用来调度作业。
4.JobTask:是Mapreduce上的进程，负责接受指令和报告状况。
总之，主节点作用主要是调度和分发数据块，而进程的作用是负责报告节点机器的状态和接受主节点的调度，Hadoop上的主要四个节点的作用就是如此。
2.Hadoop的三种模式
(1).本地独立模式：是hadoop的默认配置模式，h