第一章 初识Hadoop

声明,此连续文章为阅读Hadoop权威指南第4版的读书笔记,旨在记录重点内容。

  • 1.1 数据

    数据会越来越大,我们需要有对应的技术来存储和分析它们。

  • 1.2 数据的存储和分析

    硬盘容量的发展与读写速度已经不匹配,硬盘越来越大,读写速度却并没有提高多少。
    为了能快速读取数据,我们可以将同一份数据存储在N个硬盘硬盘上,这样同时读取N个硬盘,就大大缩短了读取时间。
    同时需要解决的2个问题是,硬盘故障的容灾(HDFS)和数据分散存储到最后合并的数据管理问题(MapReduce)。

  • 1.3 查询所有数据

    MapReduce是一个批量查询处理器

  • 1.4 不仅仅是批处理

    MapReduce更适合离线计算场景。
    “Hadoop”发展至今,已经不仅仅是指HDFS和MapReduce,被指一个更大的、多项目组成的分布式计算和大规模数据处理生态系统。
    包括HBase、YARN、Hive等

  • 1.5 相对于其他系统的优势

    这位兄弟写的很好,可以参考

  • 1.6 Hadoop 发展简史
    Apache Hadoop 是由Lucene的创始人Doug Cutting 创建的,起源于开源网络搜索引擎Nutch,Nutch本身也是Lucene的一部分。Hadoop取名来源于其创始人孩子给玩具起的名字,并无这个单词。
    Nutch开始于2002年,但其并不完善。
    2003年GFS(谷歌分布式文件系统)的一篇论文发布,指导了作者对Nutch开始改版。
    2004年NDFS(Nutch 分布式文件系统)开始开源编写。
    2004年谷歌再次发布他们的Mapreduce系统。
    2005年Nutch的开发者在Nutch上实现了自己的MapReduce系统。Nutch开始基于NDFS和MapReduce来运行。
    2006年,开发者将Nutch中的NDFS和MapReduce移出Lucene,形成独立的子项目,Hadoop诞生。
    同时Hadoop创始人Doug Cutting加入雅虎,雅虎放弃自己原有的框架,Hadoop开始在雅虎内部大量实施。
    2008年,Hadoop成为Apache的顶级项目。(ps:我08年还在玩泥巴)
    2008年4月,Hadoop打破世界纪录,成为最快的TB级数据排序系统。自此以更快的速度对大规模数据进行排序成为趋势。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值