mapreduce初始二

最新推荐文章于 2024-07-11 16:53:39 发布

peng4602

最新推荐文章于 2024-07-11 16:53:39 发布

阅读量91

点赞数

分类专栏： hadoop 文章标签：大数据 java 操作系统

本文链接：https://blog.csdn.net/peng4602/article/details/84881404

版权

hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

如果一个文件大于hadoop指定的block大小（默认是128M），那么就会被切割。在集群环境里下，假设一个文件被切割成了4块那么，实际存储的时候不一定是4块，hadoop也有可能将将其中的2块合并，行成3块存储。一般情况下mapreduce 会执行本地的块的块，但也有清苦下本地没有块而去执行其他节点上的数据。主要是为集群中的机器能充分利用。

hdfs

namenode ip：http://localhost：50070

datanode ip：http://localhost：50075

2nd namenode ip：http://localhost：50090

mapreduce（yarn）

resourcemanage ip：http://localhost：8088 负责mapreduce资源调用的

nodenamge ip：http://localhost：8042

nodenamge是YARN中每个节点上的代理，它管理Hadoop集群中单个计算节点

包括与ResourceManger保持通信，监督Container的生命周期管理，

监控每个Container的资源使用（内存、CPU等）情况，追踪节点健

康状况，管理日志和不同应用程序用到的附属服务（auxiliary service）

程序本身自己指定文件切割大小：

1.通过字符串的方式明明配置文件，要放在类路径下。

2.通过path方式命名，是通过本地系统方式加载。

3.加载hadoop_common.jar/core-default.xml

4.加载core-site.xml

5.程序里也能修改Configuration conf = job.getConfiguration(); conf.setLong(FileInputFormat.SPLIT_MAXSIZE,1024*15);

haoop可以设置饥切割块的最大值和最小值，所以在设置一个块的时候，超过最大值的时候以最大值为准，但可以小于最小值。

1.NameNode:

相当于一个领导者，负责调度，比如你需要存一个1280m的文件

如果按照128m分块那么namenode就会把这10个块（这里不考虑副本）

分配到集群中的datanode上并记录对于关系。当你要下载这个文件的时候namenode就知道在那些节点上给你取这些数据了。它主要维护两个 map 一个是文件到块的对应关系一个是块到节点的对应关系。

2. secondarynamenode：

它是namenode的一个快照，会根据configuration中设置的值来

决定多少时间周期性的去cp一下namenode，记录namenode中

的metadata及其它数据

3. NodeManager（NM）:

是YARN中每个节点上的代理，它管理Hadoop集群中单个计算节点

包括与ResourceManger保持通信，监督Container的生命周期管理，

监控每个Container的资源使用（内存、CPU等）情况，追踪节点健

康状况，管理日志和不同应用程序用到的附属服务（auxiliary service）

4.DataNode:

a.DataNode的需要完成的首要任务是K-V存储

b.完成和namenode 通信，这个通过IPC 心跳连接实现。

此外还有和客户端其它datanode之前的信息交换

c.完成和客户端还有其它节点的大规模通信，这个需要直接

通过socket 协议实现。

5.ResourceManager:

在YARN中，ResourceManager负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）

RM与每个节点的NodeManagers (NMs)和每个应用的ApplicationMasters (AMs)一起工作。

a.NodeManagers 遵循来自ResourceManager的指令来管理单一节点上的可用资源。

b.ApplicationMasters负责与ResourceManager协商资源与NodeManagers合作启动容器

上面的一些名词解释

ApplicationMaster

计算应用的资源需求，资源可以是静态或动态计算的，静态的一般是Client申请时就指定了，动态则需要ApplicationMaster根据应用的运行状态来决定根据数据来申请对应位置的资源（Data Locality）向ResourceManager申请资源，与NodeManager交互进行程序的运行和监控，监控申请的资源的使用情况，监控作业进度跟踪任务状态和进度，定时向ResourceManager发送心跳消息，报告资源的使用情况和应用的进度信息负责本作业内的任务的容错

Container的一些基本概

念和工作流程如下：

（1） Container是YARN中资源的抽象，它封装了某个节点上一定量的资源（CPU和内存两类资源）。它跟Linux Container没有任何关系，仅仅是YARN提出的一个概念（从实现上看，可看做一个可序列化/反序列化的Java类）。

（2） Container由ApplicationMaster向ResourceManager申请的，由ResouceManager中的资源调度器异步分配给ApplicationMaster；

（3） Container的运行是由ApplicationMaster向资源所在的NodeManager发起的，Container运行时需提供内部执行的任务命令（可以使任何命令，比如java、Python、C++进程启动命令均可）以及该命令执行所需的环境变量和外部资源（比如词典文件、可执行文件、jar包等）。

另外，一个应用程序所需的Container分为两大类，如下：

（1）运行ApplicationMaster的Container：这是由ResourceManager（向内部的资源调度器）申请和启动的，用户提交应用程序时，可指定唯一的ApplicationMaster所需的资源；

（2）运行各类任务的Container：这是由ApplicationMaster向ResourceManager申请的，并由ApplicationMaster与NodeManager通信以启动之。以上两类Container可能在任意节点上，它们的位置通常而言是随机的，即ApplicationMaster可能与它管理的任务运行在一个节点上。

下面部分内容 http://m.blog.csdn.net/article/details?id=51223335

peng4602

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mapreduce初始二

如果一个文件大于hadoop指定的block大小（默认是128M），那么就会被切割。在集群环境里下，假设一个文件被切割成了4块那么，实际存储的时候不一定是4块，hadoop也有可能将将其中的2块合并，行成3块存储。一般情况下mapreduce 会执行本地的块的块，但也有清苦下本地没有块而去执行其他节点上的数据。主要是为集群中的机器能充分利用。hdfsnamenode ip：http:/...
复制链接

扫一扫