基础篇:Hadoop组件与生态系统介绍

  从2014年开始,大数据逐渐发展壮大起来。越来越多的公司开始使用大数据,包括日常事务管理及复杂业务方案探究。大数据已经很快地从一个被夸大的词汇转变成了一个可行的技术,无论业务规模是大还是小。

  大数据,简单来说就是存在于我们身边的大量数据,如智能终端、网络应用、社交媒体、聊天室、移动App、通讯记录、支付历史以及各种其他方式涉及到的数据。大数据技术对大量的信息进行整合、存储以及分析,数据量一般在PB级别。

  这项技术已经完全改变了人们看待数据与数据库的方式,也改变了人们使用数据的方式。在军事方面,大数据主要用来预防损伤。在NBA,大数据主要用来捕捉并且分析一场比赛中数以百万计的个人动作。健康产业将大数据应用于治疗癌症与心脏病。汽车公司将这项技术实现自动驾驶以及汽车自主交流。

  大数据正在改变这个世界。但,究竟在这之后存在着怎样的软件呢?是什么使得大数据技术不断发展与运行呢?

  答案揭晓,Hadoop。

  很多人认为hadoop就是大数据,但它不是。在hadoop出现之前就已经存在大数据,而且即使没有hadoop大数据也将继续存在。然而,hadoop现在是大数据行业的寡头。hadoop与大数据二者混用是有原因的——很多人都这样用。你可以自己去找找看哪些大数据公司不使用 hadoop。

  Hadoop究竟是什么?

  它是一个“软件库”,使用者可以通过它获得处理大批数据的能力,即“使用简单编程模型在计算机集群上处理大量数据”。换句话说,它使公司有能力对大批数据进行汇总、存储与分析。

  另外,理解大数据很重要的一点在于它是一个“软件库”。大量的程序库补充了Hadoop基本框架,给予各个公司所需的特定工具,以获得期望的hadoop结果。

  让我们来看一下hadoop生态系统。相关资源及更多信息参见hadoop网站。

  Hadoop项目包含了各种模块——Hadoop通用库、hadoop分布式文件系统、Hadoop YARN 与Hadoop MapReduce。这些系统的整合,支撑了我们下面提到的其他hadoop项目,赋予了大数据处理实时自动任务调度和集群资源管理能力。

  其他项目提供了特定的服务,完善了整个 hadoop生态系统。

  Apache Hive:“一个提供数据汇总与即席查询的数据仓库”。该系统是一个强大的查询工具,并能仅实时的得到查询结果。

  Apache Spark: Apache Spark是一个通用计算引擎,能对大规模数据进行快速分析。Spark建立在HDFS之上,而不依赖于MapReduce,它使用了自己的数据处理框架。Apache Spark通常的使用场景,包括实时查询、事件流处理、迭代计算、复杂操作与机器学习。

  Apache Ambari: Ambari的目的在于帮助管理hadoop。它能够为许多hadoop生态环境中的工具提供支持,包括Hive, HBase, Pig, Sqoop 与Zookeeper。该工具的特征在于有一个控制面板,能够跟踪集群健康状态,帮助诊断性能问题。

  Apache Pig: Pig是一个平台工具,它支持一种处理大数据集的查询语言。

  Apache HBase: HBase是一个在HDFS之上运行的非关系型数据库管理系统。建立HBase的目的在于处理大数据项目中的稀疏数据集。

  其他常见的hadoop项目包括:Avro, Cassandra, Chukwa, Mahout与Zookeeper。

  通过构建hadoop,使用者能够获得大量工具和资源,从而深度定制他们的大数据平台,以适应自己的业务所需。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值