第一章初识Hadoop

最新推荐文章于 2021-05-01 14:48:26 发布

forliberty

最新推荐文章于 2021-05-01 14:48:26 发布

阅读量216

点赞数 1

分类专栏： Hadoop权威指南文章标签： Hadoop权威指南

本文链接：https://blog.csdn.net/forliberty/article/details/86630118

版权

Hadoop权威指南专栏收录该内容

5 篇文章 0 订阅

订阅专栏

声明，此连续文章为阅读Hadoop权威指南第4版的读书笔记，旨在记录重点内容。

1.1 数据

数据会越来越大，我们需要有对应的技术来存储和分析它们。
1.2 数据的存储和分析

硬盘容量的发展与读写速度已经不匹配，硬盘越来越大，读写速度却并没有提高多少。
为了能快速读取数据，我们可以将同一份数据存储在N个硬盘硬盘上，这样同时读取N个硬盘，就大大缩短了读取时间。
同时需要解决的2个问题是，硬盘故障的容灾（HDFS）和数据分散存储到最后合并的数据管理问题（MapReduce）。
1.3 查询所有数据

MapReduce是一个批量查询处理器
1.4 不仅仅是批处理

MapReduce更适合离线计算场景。
“Hadoop”发展至今，已经不仅仅是指HDFS和MapReduce，被指一个更大的、多项目组成的分布式计算和大规模数据处理生态系统。
包括HBase、YARN、Hive等
1.5 相对于其他系统的优势

这位兄弟写的很好，可以参考
1.6 Hadoop 发展简史
Apache Hadoop 是由Lucene的创始人Doug Cutting 创建的，起源于开源网络搜索引擎Nutch，Nutch本身也是Lucene的一部分。Hadoop取名来源于其创始人孩子给玩具起的名字，并无这个单词。
Nutch开始于2002年，但其并不完善。
2003年GFS（谷歌分布式文件系统）的一篇论文发布，指导了作者对Nutch开始改版。
2004年NDFS（Nutch 分布式文件系统）开始开源编写。
2004年谷歌再次发布他们的Mapreduce系统。
2005年Nutch的开发者在Nutch上实现了自己的MapReduce系统。Nutch开始基于NDFS和MapReduce来运行。
2006年，开发者将Nutch中的NDFS和MapReduce移出Lucene，形成独立的子项目，Hadoop诞生。
同时Hadoop创始人Doug Cutting加入雅虎，雅虎放弃自己原有的框架，Hadoop开始在雅虎内部大量实施。
2008年，Hadoop成为Apache的顶级项目。（ps：我08年还在玩泥巴）
2008年4月，Hadoop打破世界纪录，成为最快的TB级数据排序系统。自此以更快的速度对大规模数据进行排序成为趋势。

forliberty

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
第一章初识Hadoop

1.1 数据数据会越来越大，我们需要有对应的技术来存储和分析它们。1.2 数据的存储和分析硬盘容量的发展与读写速度已经不匹配，硬盘越来越大，读写速度却并没有提高多少。为了能快速读取数据，我们可以将同一份数据存储在N个硬盘硬盘上，这样同时读取N个硬盘，就大大缩短了读取时间。同时需要解决的2个问题是，硬盘故障的容灾（HDFS）和数据分散存储到最后合并的数据管理问题（MapReduc...
复制链接

扫一扫