《Hadoop权威指南学习笔记》
啜晓伟
这个作者很懒,什么都没留下…
展开
-
《Hadoop权威指南》学习笔记(7)——Hadoop的I/O操作(3)
这是Hadoop的I/O操作的最后一部分了。这一部分的主要内容是用来存储文件数据的数据结构。关于SequenceFileHadoop 的SequenceFile类为二进制键值对提供了一个持久数据结构,对于不适合用纯文本记录的二进制类型日志文件非常合适。HDFS 和 MapReduce 是针对大文件优化的,所以通过SequenceFIle类将小文件包装起来,可以获得更高效率的存储和处理。SequenceFile的写操作通过createWriter()方法可以创建SequenceFile对象,并返回原创 2020-08-01 15:09:04 · 198 阅读 · 0 评论 -
《Hadoop权威指南》学习笔记(6)——Hadoop的I/O操作(2)
序列化这一部分的主要内容是序列化。概念所谓序列化是指将结构化对象转化为字节流以便在网络上串数或写到磁盘进行永久存储的过程。相应的,既然有序列化,就一定有反序列化。反序列化是指将字节流转回结构化对象的逆过程。序列化用于分布式数据处理的两大领域:进程间通信和永久存储。在 Hadoop 中,系统中多个节点上进程间的通信是通过“远程过程调用”(RPC)实现的。RPC 协议将消息序列化成二进制流后发送到远程节点,远程节点接着将二进制流反序列化为原始消息。RPC 序列化格式有以下几个属性:紧凑;快速;原创 2020-07-30 20:58:36 · 245 阅读 · 0 评论 -
《Hadoop权威指南》学习笔记(5)——Hadoop的I/O操作(1)
因为这部分内容比较多,所以打算把这部分分成三次来写。第一部分是关于数据完整性和数据的压缩。数据完整性首先要了解的是,当系统中需要处理的数据量很大,达到Hadoop的处理极限时,数据会有较高的被损坏概率。检测数据是否损坏的常见措施是——校验和。在数据第一次引入系统以及通过不可靠通道进行传输时分别计算校验和,并判断其是否匹配,若不匹配,则认为数据已损坏。需要注意的是,校验和也有可能会损坏,但因为校验和很小,所以损坏的可能性也很小。常用的错误检测码是CRC-32(32位循环冗余校验)。Hadoop C原创 2020-07-20 12:45:46 · 245 阅读 · 1 评论 -
《Hadoop权威指南》学习笔记(4)——关于YARN
Apache YARN(Yet Another Resource Negotiator的缩写)是Hadoop的集群资源管理系统。YARN运行在集群存储层(HDFS和HBase)上,一些分布式计算框架(如MapReduce和Spark等)作为YARN应用运行在集群计算层(YARN)和集群存储层上。YARN运行机制YARN通过两类长期运行的守护进程提供自己的核心服务:1、管理集群上资源使用的资源管理器2、运行在集群中所有节点上且能够启动和监控容器的节点管理器。其中容器用于执行特定应用程序的进程。下原创 2020-07-15 22:03:35 · 383 阅读 · 0 评论 -
《Hadoop权威指南》学习笔记(3)——Hadoop分布式文件系统
Hadoop分布式文件系统,即HDFS(Hadoop Distributed FileSystem)。HDFS的设计1、存储超大文件(指大小为几百MB、几百GB甚至几百TB大小的文件)2、流式数据访问:一次写入、多次读取,这是一种比较高效的访问方式。这是因为数据分析往往是先读入一个数据集,然后长期在其上进行各种分析,所以读取整个数据集的时间延迟更为重要。3、时间延迟较高,不适合要求低时间延迟数据访问的应用,因为它是为高数据吞吐量应用优化的。4、HDFS中的文件只支持单个写入者,并且写操作总以“只添原创 2020-07-10 13:28:24 · 347 阅读 · 0 评论 -
《Hadoop权威指南》学习笔记(2)——Hadoop在Linux上的配置
这一篇文章主要是对上一篇的一个补充。因为虽然上一篇写了Java程序以及MapReduce的原理等,但是如果没有成功安装hadoop的话,一切都是白搭,所以这篇文章主要记录一下Hadoop在Ubuntu上的安装。安装环境:Vmware Workstation 15, Ubuntu 18.04安装内容:Java jdk1.8,hadoop-2.7.1Java jdk的安装这个比较简单,与在Windows上安装是一样的,不过以前在官网可以直接下载,现在好像必须要用Oracle账号登录才能下载。需要注意的原创 2020-07-03 20:55:14 · 179 阅读 · 0 评论 -
《Hadoop权威指南》学习笔记(1)——初始Hadoop及了解MapReduce
注:因为Hadoop中的代码实现用java较为方便,并且书中代码用java实现的解释较为容易理解,所以,在博客中的代码实现均会使用java。第1章 初识Hadoop我们为什么需要Hadoop我们生活在一个数据爆炸的时代,现代每天产生的数据量甚至要超过从商周到清代产生的数据的总和。在这样一个时代,数据即是机遇,如何存储更多的数据,如何快速的对数据进行分析提取,就成了一个无法避免的问题。此外,...原创 2020-04-14 21:55:21 · 225 阅读 · 0 评论