大数据面试学习笔记
文章平均质量分 71
向心.
这个作者很懒,什么都没留下…
展开
-
一、Hadoop(大数据面试学习笔记)MapReduce过程
在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务。.此阶段分为sort和combine.首先分区过得数据会经过排序之后写入环形内存缓冲区.在达到阈值之后守护线程将数据溢出分区文件.spill结果会有很多个文件,但最终输出只有一个,故有一个merge操作会合并所有的本地文件,并且该文件会有一个对应的索引文件.原创 2024-07-02 16:49:01 · 314 阅读 · 0 评论 -
一、Hadoop(大数据面试学习笔记)HDFS架构
HDFS 采用的是 Master/Slave 架构,一个 HDFS 集群包含一个单独的 NameNode 和多个 DataNode 节点。原创 2024-07-02 15:13:01 · 1437 阅读 · 0 评论 -
一、Hadoop(大数据面试学习笔记)Yarn架构
要注意的是,该调度器是一个纯调度器,它不再从事任何与应用程序有关的工作,比如不负责重新启动(因应用程序失败或者硬件故障导致的失败),这些均交由应用程序相关的 ApplicationMaster 完成。调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位用一个抽象概念。Container 是 YARN 中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当 AM 向 RM 申请资源时,RM 为 AM 返回的资源便是用 Container 表示的。原创 2024-07-02 16:15:29 · 650 阅读 · 0 评论