hadoop初学教程
1,目的
该Hadoop教程全面介绍了Hadoop。 该教程涵盖了什么是Hadoop,什么是Hadoop需求,为什么hadoop最流行,Hadoop架构,数据流,Hadoop守护程序,不同的风格,Hadoop组件网络(如hdfs,MapReduce,Yarn等)的介绍。
2.Hadoop简介
Hadoop是ASF – Apache Software Foundation的开源工具。 开源项目意味着它可以免费获得,甚至可以根据要求更改其源代码。 如果某些功能不能满足您的要求,则可以根据需要进行更改。 大部分Hadoop代码是由Yahoo,IBM,Facebook,Cloudera编写的。
它为在集群的多个节点上运行作业提供了有效的框架。 群集是指通过局域网连接的一组系统。 Hadoop提供并行处理数据的功能,因为它可以同时在多台计算机上工作。
它的灵感来自于Google,该公司撰写了一篇有关其正在使用的技术的论文,例如Map-Reduce编程模型及其文件系统(GFS)。 Hadoop最初是在Doug cuting和他的团队从事Nutch搜索引擎项目时编写的,但由于其受欢迎程度很快,它就成为了顶级项目。
Hadoop是一个用Java编写的开源框架。 但这并不意味着您只能使用Java进行编码。 您可以使用C,C ++,perl,python,ruby等进行编码。您可以使用任何语言进行编码,但是建议您使用Java进行编码,因为您将对代码进行较低级别的控制。
它可以在一组商用硬件上有效地处理大量数据。 Hadoop是为处理大量数据而开发的。 商品硬件是低端硬件,它们是非常经济的廉价设备。 因此hadoop非常经济。
Hadoop可以在单台机器上设置(伪分布式模式) ,但是Hadoop的真正功能是由机器集群提供的,它可以动态扩展到数千个节点,即没有任何停机时间。 我们无需关闭任何系统即可在集群中添加更多系统。
Hadoop由三个关键部分组成-Hadoop分布式文件系统 (HDFS), Map-Reduce和YARN 。 HDFS是存储层,Map Reduce是处理层,而YARN是资源管理层。
3,为什么要使用Hadoop?
现在让我们了解为什么Hadoop非常流行,为什么Hadoop占领了90%以上的大数据市场。
Hadoop不仅是存储系统,还是数据存储和处理的平台。 它具有可扩展性(可以动态添加更多节点),容错(即使节点出现故障,数据也可以由其他节点处理)和开源(可以根据需要修改源代码)。
hadoop初学教程