为什么会有hadoop,其实研究hadoop已经有一段时间了,前期亲手搭建了自己的全分布式hadoop集群,然后捧着一本全英文的hadoop权威指南啃了一大半,然而在没有实战训练的情况下,我的学习进度一直提不上来,这让我很被动,开始写博客的原因也是想通过一点一滴的记录来让自己明确下来。
理论上讲,hadoop是一种工具,这种工具产生自数据量的膨胀,hadoop提出的分布式处理的思想,就是多台电脑批量处理数据的解决方案。该方案的最大优势就是它依托的是平价的机器。一般来说,一个有着100台机器的集群,就像一个有着100条流水线的操作流程一样,来分担PB/TB级别的任务,再加上每条流水线在业务流程上升级,以此来达到短时间内消化大量数据的目的。然而,这样粗粒度的理解对于一个将要从事数据处理相关工作的人来说没有任何帮助,下面我从我的角度来进一步学习hadoop的内部结构,hadoop是一个工具我把它看作一个软件,面对一个软件,我们想了解的不外乎以下几点:
理论层面:
第一:hadoop是做什么的
第二:hadoop怎么做
第三:hadoop做的怎么样
技术层面:
第一:hadoop中数据的输入
- 目的
- 方法
- 效果
第二:hadoop中数据的存储
- 目的
- 方法
- 效果
第三:hadoop中数据的处理
- 目的
- 方法
- 效果
第四:hadoop中数据的输出
- 目的
- 方法
- 效果
细化内容在之后的博客中陆续给出。。。
此次就是要从零开始,梳理hadoop的相关内容,不足之处,请各位批评指正。