hadoopnode
文章平均质量分 82
杨老七
热爱生活的程序员一枚
展开
-
Hadoop MapReduce 详解(二)
MR流程详解MR的流程可以分为输入,分片,map,shuffle,reduce,以及输出。这几个大的部分,下面我们一一讲解。一、整体流程1、输入文件之后,分片之后的每个文件分配给每个MapTask。2、MapTask处理文件,输出kv对,放入内存缓冲区。从内存缓冲区(默认100M)中不断溢出到本地磁盘文件(到达80%内存缓冲区就开始溢出)。3、可能溢出多个文件,最终会合并称一个文件。在溢出以及合并溢出文件时,都要调用Partitioner进行分区和针对key进行排序。4、Reduce原创 2021-12-08 14:36:34 · 209 阅读 · 0 评论 -
Hadoop MapReduce详解(一)
一、MapReduce简介之前我们我们讲解了Hadoop的分布式文件储存系统HDFS,曾把它比作一个工厂的仓库。而今天我们要介绍的MapReduce(简称MR)分布式计算框架,就可以把他看作一个工厂的流水线。1、MR的编程思想MR的核心的思想就是分而治之,通俗的来说,就是将复杂的事情分割成很多小的事情,一一去完成,最终合并结果。那么我们可以明白MR的过程实际就是输入,分,处理,合并,输出。MR的过程分为两个大的阶段Map以及Reduce阶段。既然是分开治理,Map阶段包含许多的mapTa..原创 2021-12-06 15:24:00 · 519 阅读 · 0 评论 -
Hadoop yarn详解
一、YARN概述(Yet Another Resource Negotiantor)时至今日Hadoop已经走过了许多年头,目前已经到达第三代,相比第二代框架得基本架构上没有变化。但是二代相比第一代,却有很大得变化,独立出来了资源管理框架。第一代将资源调度交给mapreduce中的jobtracher。二、YARN架构yarn主要由ResourceManager,ApplicationsMaster,NodeManager,Container。下面我们一一介绍。1、ResourceM原创 2021-12-02 15:37:34 · 2312 阅读 · 0 评论 -
HDFS详解
一、HDFS概述在Hadoop分布式系统的框架中,首要的存储数据的功能是由HDFS这个分布式文件系统完成的。如果把Hadoop框架比喻成一个工厂,那么HDFS就像是整个工厂的仓库。二、HDFS优缺点优点:高容错性,能够将失败的任务重新分配,适合大数据开发,可以构建在廉价机器上。缺点:不适合低延时时间数据访问,无法对大量小文件进行储存,小文件寻址时间会超过读取时间,不支持并发写入,文件随意修改,仅支持追加。三、HDFS架构HDFS是一个分布式的储存组件,是由主从体系结构。主要由na原创 2021-11-30 17:01:12 · 3060 阅读 · 0 评论