
Hadoop
Hadoop知识整理
lightupworld
这个作者很懒,什么都没留下…
展开
-
Hadoop权威指南_读书笔记_第11章 管理Hadoop——namenode与secondarynamenode
详解namenode与secondarynamenode一 、NameNode二、Secondary Namenode一 、NameNode1. namenode的目录结构运行中的namenode有如下所示的目录结构1.VERSION文件是一个java属性文件,其中包含正在运行的HDFS的版本信息。文件一般包含以下内容layoutVersion:是一个负整数,描述HDFS持久性数据结构的版本。namespaceID:是文件系统命名空间的唯一标识符,是在namenode首次格式化时创建原创 2020-07-01 10:20:30 · 187 阅读 · 0 评论 -
Hadoop权威指南_读书笔记_第7章 MapReduce的工作机制[面试重点]
第7章 MapReduce的工作机制[面试重点]一、 MapReduce作业运行机制二、 Shuffle 和排序1. Map端2. reduce端一、 MapReduce作业运行机制参考之前的文章: MapReduce的作业运行机制二、 Shuffle 和排序MapReduce 确保每个 reducer 的输入都是按键排序的。 系统执行排序,将map输出 作为输入 传给reducer的过程称为 shuffle。1. Map端map函数开始产生输出时,并不是简单的将数据写到磁盘,而是原创 2020-06-30 20:03:02 · 154 阅读 · 0 评论 -
Hadoop权威指南_读书笔记_第4章 关于YARN[面试重点]
第3章 关于YARN一、 YARN的运行机制 [面试重点]二、 MapReudce Yarn的运行机制[面试重点-重中之重]三、 YARN的调度一、 YARN的运行机制 [面试重点]1. 剖析YARN运行机制resource manager : 管理集群资源使用的资源管理器。node manager:运行在所有的节点上 且能够启动和监控容器(container)的节点管理器。container :用于执行特定应用程序的进程,每个容器都有资源限制(内存、CPU等)。流程图:1 首先,客户原创 2020-06-28 21:31:38 · 211 阅读 · 0 评论 -
Hadoop权威指南_读书笔记_第3章 Hadoop分布式文件系统(下) HDFS的读取与写入流程[面试重点]
HDFS的读取与写入流程 [面试重点]一、HDFS的读取流程二、HDFS的写入流程一、HDFS的读取流程1.先上一段简单代码,使用FileSystem读取HDFS文件// cc FileSystemDoubleCat Displays files from a Hadoop filesystem on standard output twice, by using seekimport java.net.URI;import org.apache.hadoop.conf.Configura原创 2020-06-24 18:19:35 · 229 阅读 · 0 评论 -
Hadoop权威指南_读书笔记_第3章 Hadoop分布式文件系统(上)
第3章 Hadoop分布式文件系统一、HDFS的设计二、HDFS的概念一、HDFS的设计1.超大文件超大文件指 GB、TB甚至PB级别的数据。2.流式数据访问HDFS的构建思路是这样的:一次写入、多次读取是最高效的访问模式。3.商用硬件Hadoop并不需要运行在昂贵的高可靠硬件上。4.不适合低时间延迟的数据访问要求低时间延迟数据访问的应用,不适合在HDFS上面应用。5.不适合大量小文件由于namenode系统的元数据存储在内存中,因此能存储的文件总数受限于named原创 2020-06-23 20:35:29 · 162 阅读 · 0 评论 -
Hadoop权威指南_读书笔记_第2章 关于MapReduce
第2章 关于MapReduce使用Hadoop来分析数据使用Hadoop来分析数据1.查找最高气温的Mapper类// cc MaxTemperatureMapper Mapper for maximum temperature example// vv MaxTemperatureMapperimport java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Lon原创 2020-06-23 17:43:26 · 164 阅读 · 0 评论 -
Hadoop权威指南_读书笔记_第1章 初识Hadoop
第1章 初识Hadoop1. why hadoop?为什么不能用配有大量硬盘的数据库进行大规模数据分析答案来自于计算机硬盘的另一个发展趋势:寻址时间的提升远远不敌于传输速率的提升。寻址是将磁头移动到特定硬盘位置,进行读/写操作的过程。 它是导致硬盘操作延迟的主要原因,而传输速率取决于硬盘的带宽。如果数据访问模式中包含大量的硬盘寻址,那么读取大量数据集就必然会花费更长的时间。如果数据库系统只更新一小部分记录,那么传统的B树就更有优势。但是如果数据库有大量数据更新的时候,B树的效率就明显落后于Map原创 2020-06-23 16:10:00 · 192 阅读 · 0 评论