hadoop初学教程_Hadoop教程–面向初学者的综合指南

hadoop初学教程

1,目的

该Hadoop教程全面介绍了Hadoop。 该教程涵盖了什么是Hadoop,什么是Hadoop需求,为什么hadoop最流行,Hadoop架构,数据流,Hadoop守护程序,不同的风格,Hadoop组件网络(如hdfs,MapReduce,Yarn等)的介绍。

2.Hadoop简介

Hadoop是ASF – Apache Software Foundation的开源工具。 开源项目意味着它可以免费获得,甚至可以根据要求更改其源代码。 如果某些功能不能满足您的要求,则可以根据需要进行更改。 大部分Hadoop代码是由Yahoo,IBM,Facebook,Cloudera编写的。

它为在集群的多个节点上运行作业提供了有效的框架。 群集是指通过局域网连接的一组系统。 Hadoop提供并行处理数据的功能,因为它可以同时在多台计算机上工作。

它的灵感来自于Google,该公司撰写了一篇有关其正在使用的技术的论文,例如Map-Reduce编程模型及其文件系统(GFS)。 Hadoop最初是在Doug cuting和他的团队从事Nutch搜索引擎项目时编写的,但由于其受欢迎程度很快,它就成为了顶级项目。

Hadoop是一个用Java编写的开源框架。 但这并不意味着您只能使用Java进行编码。 您可以使用C,C ++,perl,python,ruby等进行编码。您可以使用任何语言进行编码,但是建议您使用Java进行编码,因为您将对代码进行较低级别的控制。

它可以在一组商用硬件上有效地处理大量数据。 Hadoop是为处理大量数据而开发的。 商品硬件是低端硬件,它们是非常经济的廉价设备。 因此hadoop非常经济。

Hadoop可以在单台机器设置(伪分布式模式) ,但是Hadoop的真正功能是由机器集群提供的,它可以动态扩展到数千个节点,即没有任何停机时间。 我们无需关闭任何系统即可在集群中添加更多系统。

Hadoop由三个关键部分组成-Hadoop分布式文件系统 (HDFS), Map-ReduceYARN HDFS是存储层,Map Reduce是处理层,而YARN是资源管理层。

3,为什么要使用Hadoop?

现在让我们了解为什么Hadoop非常流行,为什么Hadoop占领了90%以上的大数据市场。

Hadoop不仅是存储系统,还是数据存储和处理的平台。 它具有可扩展性(可以动态添加更多节点),容错(即使节点出现故障,数据也可以由其他节点处理)和开源(可以根据需要修改源代码)。

阅读全文>>

翻译自: https://www.theserverside.com/blog/Coffee-Talk-Java-News-Stories-and-Opinions/Hadoop-tutorial-A-comprehensive-guide-for-beginners

hadoop初学教程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值