![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop权威指南
玩玩大数据
这个作者很懒,什么都没留下…
展开
-
Hadoop权威指南笔记-第1章-初识hadoop
1.1 数据数据 数据越来越多1.2 数据的存储和分析 硬盘存储容量不断提升,也变得便宜。但是访问速度并没有得到提升。 1990年一块硬盘可以存储1370m,传输速度是4.4m/s。 五分钟可以遍历完 2010年一块硬盘 1T,速度是100m/s,需要 1024*1024/100 约等于10240秒=3个小时左右于是我们考虑对多个硬盘并行读写,以加快速度。但是遇到...原创 2019-08-27 17:08:00 · 381 阅读 · 0 评论 -
Hadoop权威指南笔记-第2章-关于MapReduce
2.1 气象数据集没啥可读的,就是说有一组数据,然后呢,要从这些数据里找到每一年的最高气温2.2 使用unix工具来分析数据也没啥可看的,就是说可以用awk工具来处理这个数据,要运行42分钟2.3使用hadoop来分析数据2.3.1 map和reduce 敲黑板啦,这个重点!!看上面这个图,map阶段:入参就是一行一行的原始数据,然后经过map之后,会输出一个...原创 2019-08-28 12:46:27 · 170 阅读 · 0 评论 -
Hadoop权威指南笔记-第3章-hdfs
3.1 hdfs的设计超大文件:几百M 到几百T ,甚至是T的数据流式数据访问: 一次写入,多次读取,每次读取都是全量的数据商用硬件:允许机器硬件故障低时间延迟: 不适合,可以考虑HBase大量小文件:不好,由于元数据保存在内存中,每个文件/目录/数据块 在内存中大约占150字节。 如果有一百W个小文件,每个文件一个数据块,那么就要 100,0000*2*150 B...原创 2019-08-30 16:48:34 · 216 阅读 · 0 评论 -
Hadoop权威指南笔记-第4章-关于YARN
yarn最初是hadoop2.x用于改善mapReduce的,但是可以支持其他分布式应用。yarn提供api来请求和使用集群的资源,但是用户不直接使用这些api,而是使用下图中 mr spark tez等程序会架构在yarn之上。4.1 剖析 yarn应用的运行机制2个常驻进程: resourceManager: 总经理,管理整个集群的资源 nodeManager: ...原创 2019-09-03 12:55:17 · 252 阅读 · 0 评论 -
Hadoop权威指南笔记-第5章-hadoop的IO操作
目录5.1 数据完整性5.1.1 hdfs数据完整性5.1.2 LocalFileSystem5.1.3 CheckSumFileSystem5.2 压缩5.2.1 Codec5.2.2 压缩和输入分片5.2.3 在MapReduce中使用压缩5.3 序列化5.3.1 Writable接口5.3.2Writable类5.3.3 实现定制的wr...原创 2019-09-11 08:50:12 · 418 阅读 · 0 评论