![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop权威指南
forliberty
我要认真起来,连我自己都怕
展开
-
第一章 初识Hadoop
1.1 数据 数据会越来越大,我们需要有对应的技术来存储和分析它们。 1.2 数据的存储和分析 硬盘容量的发展与读写速度已经不匹配,硬盘越来越大,读写速度却并没有提高多少。 为了能快速读取数据,我们可以将同一份数据存储在N个硬盘硬盘上,这样同时读取N个硬盘,就大大缩短了读取时间。 同时需要解决的2个问题是,硬盘故障的容灾(HDFS)和数据分散存储到最后合并的数据管理问题(MapReduc...原创 2019-01-24 17:14:57 · 216 阅读 · 1 评论 -
第二章 关于MapReduce
MapReduce的优势在于处理大规模数据集 # 2.1 气象数据集 本章给了一个从气象数据中计算每年最高气温的例子。原始数据来自ncdc,见下方ftp。数据的格式是每年一个文件,每个文件中有多条气象数据的记录。 ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2010/ ncdc的气象数据 书中的全套源码可以自行百度,下下来导进去就可以运行。 至此我们还不需要搭建ha...原创 2019-02-18 20:04:47 · 814 阅读 · 0 评论 -
第三章 Hadoop 分布式文件系统
声明,此连续文章为阅读《Hadoop权威指南第4版》的读书笔记,旨在记录重点内容和阅读心得,有共读的朋友可以交流书中疑惑。 3.1 HDFS的设计 HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上。 超大文件 流式数据访问 HDFS的构建思路:一次写入,多次读取。 高可靠性 高吞吐量 低延迟的任务不适合在HDFS上运行,对于低延迟的访问需求HBase更合适。 大量的小文件 不支持...原创 2019-02-26 14:15:22 · 160 阅读 · 0 评论 -
第四章 关于YARN
Apache YARN(Yet Another Resource Negotiator) ,是Hadoop的集群资源管理系统。提供请求和使用集群资源的API,但这些API一般不是用于用户的代码,而是为分布式计算框架如MapReduce、Spark等提供API,使得用户不用关心资源管理的细节。 4.1 剖析YARN应用运行机制 ...原创 2019-05-30 19:25:37 · 251 阅读 · 0 评论 -
第五章 Hadoop的I/O操作
Hadoop自带一套原子操作用于数据I/O操作。主要考虑的问题是数据完整性、数据压缩、序列号、on-disk数据结构。 5.1 数据完整性 如果需要处理的数据大到Hadoop的处理极限,数据损坏的几率还是很高的。 检测数据是否损坏的常用措施是在数据第一次引入系统时计算校验和(checksum),并在数据通过一个不可靠的通道传输后再次计算校验和。但是该技术只能检测数据错误但是不能修复数据,且校验和...原创 2019-09-06 11:06:14 · 247 阅读 · 0 评论