Hadoop实践(零)---Hadoop项目生态系统

核心组件

  • HDFS是的Hadoop分布式文件系统,用于将数据存储在Hadoop集群。HDFS是冗余和高度可靠的分布式文件系统。
  • YARN是另一种资源管理器,它为集群提供所有的调度和资源管理。
  • MapReduce是为集群提供MapReduce功能的YARN应用程序框架。它与MapReduce V1 兼容并作为许多更高级的Hadop工具的基础

Hadoop数据库

  • Apache HCatalog是使用Hadoop创建的数据的表和存储管理服务。抽象为表让用户不需要知道数据的存储位置。
  • Apache HBase是Hadoop数据库,是分布式和可以做的列式数据库,类似有Google Big Table。Hbase提供急群众数据的随机、实时访问。HBase被设计为荣男几十亿行和数百万列的非常大的表。

MapReduce查询工具

  • Apache Pig是一种高级语言,使程序员能够使用简单的脚本语言编写复制的MapReduce转换,Pig Latin(实际语言)在数据集上定义一组转换,包括聚合、连接和排序。它通常用于提取、转换和加载(ETL)数据管道,快速研究原始数据和迭代数据处理。这种语言提高了对MapReduce作业进行Java编程的编程效率。
  • Apache Hive是一种建立在Hadoop之上的数据仓库基础设施。使用称为HiveQL的类似于SQL的语言提供大数据集的数据汇总、即时查询和分析。Hive透明的把在HBase中执行的查询转换为MapReduce作业。Hive被认为是使用Hadoop的海量数据的交互式SQL查询事实上的标准。

Data导入导出

  • Aache Sqoop是设计为高效地在HDFS和关系数据库之间传输大量数据的工具。一旦数据被放在HDFS中,Hadoop应用程序就可以使用它。
  • Apache Flume是高效地收集、聚合和移动大量的动态串行数据(例如,日志数据)的分布式、可靠的服务。
  • Apache Avro 是是的数据能在任何语言编写的程序之间变化的序列化格式。它通常用于连接Flume数据流。

工作流自动化

  • Apache Oozie是一个管理多级Hadoop作业的工作流/协调系统。它使工作流决策基于作业的依赖关系。对于设计工作执行图形,Oozie是最好的工具。
  • Apache Falcon使得插入、管道和复制操作的数据移动和处理自动化。当书记改变或变得可用时,Falcon可以出发作业启动。

管理

  • Apache Ambari是一个基于Web的Apache Hadoop集群资源调配、管理和监控工具。

YARN应用程序框架

应用程序框架是专门为YARN环境编写的应用程序。核心MapReduce框架就是一个示例。其他项目包括Apache Giraph(图形处理)、Apache Spark(内存中处理)、Apache Storm(流处理)和其他应用程序等

其他

  • Apache Zookeeper 是应用程序用于维护配置、健康程度和节点之间的其他状态元素的集中式服务。它维护了在大型集群环境中需要的一些常见对象,包括配置信息、分层命名空间,等等。用用程序可以使用这些服务来协调在Hadoop集群中的分布式处理。Zookeeper还提供应用程序的可靠性。如果某个应用程序主控程序出现故障了。Zookeeper就会尝试新的应用程序主控程序来回复此任务。
  • Apache Mahout是一个可扩展的机器学习库,它实现了许多不同的机器学习的方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值