apache hadoop_大数据Apache Hadoop简介

apache hadoop

Apache Hadoop是一个开源软件框架,用于在商品硬件集群上存储和大规模处理数据集。 Hadoop是Apache的顶级项目,由全球的贡献者和用户社区构建和使用。 它是根据Apache License 2.0授权的。

道格·切特(Doug Cutting)和儿子的毛绒大象Hadoop

Hadoop由Doug Cutting和Mike Cafarella于2005年创建。Hadoop最初是为支持Nutch搜索引擎项目的发行而开发的。 道格,曾在Yahoo!工作。 当时是Cloudera的首席架构师,该项目以儿子的玩具大象命名。 Cutting的儿子当时只有2岁,刚刚开始说话。 他称自己心爱的毛绒黄色大象为“ Hadoop”(强调第一个音节)。 现年12岁的道格的儿子经常大喊:“你为什么不说我的名字,为什么我没有得到版税?我应该为此而出名!”

Apache Hadoop框架由以下模块组成

  1. Hadoop Common:包含其他Hadoop模块所需的库和实用程序
  2. Hadoop分布式文件系统(HDFS):一种将文件存储在商用机器上的分布式文件系统,在整个集群中提供非常高的聚合带宽
  3. Hadoop YARN:一种资源管理平台,负责管理集群中的计算资源并将其用于调度用户的应用程序
  4. Hadoop MapReduce:用于大规模数据处理的编程模型

Hadoop中的所有模块都是在基本假设下(硬件故障(单个计算机或机架))是常见的,因此应该由框架在软件中自动处理。 Apache Hadoop的MapReduce和HDFS组件最初分别来自Google的MapReduce和Google文件系统(GFS)论文。

除了HDFS,YARN和MapReduce外,整个Apache Hadoop“平台”现在通常也被认为由许多相关项目组成:Apache Pig,Apache Hive,Apache HBase等。

Apache Hadoop生态系统说明

对于最终用户,尽管MapReduce Java代码是常见的,但是任何编程语言都可以与“ Hadoop Streaming”一起使用,以实现用户程序的“ map”和“ reduce”部分。 在其他相关项目中,Apache Pig和Apache Hive分别公开了较高级别的用户界面,例如Pig la

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值