大数据入门:大数据Hadoop家族全介绍

在大数据开发学习当中,关于Hadoop框架的学习无疑是重点,并且也是难点,整个Hadoop家族生态圈,有二十几个组件,在学习阶段都是需要有相应的理解和掌握的。今天的大数据培训课程介绍,我们就主要来聊聊Hadoop家族的一系列产品。

在大数据处理框架当中,Hadoop家族产品是早期开源框架当中的首选,并且直到今天,仍然在很多方面有着不可替代的作用。
 

大数据培训课程介绍


Hadoop家族产品介绍:

Apache Hadoop:分布式计算框架,提供分布式文件系统HDFS和支持MapReduce分布式计算的软件架构。

Apache Hive:基于Hadoop的数据仓库工具,十分适合数据仓库的统计分析。

Apache Pig:基于Hadoop的大规模数据分析工具,提供的SQL-LIKE语言叫Pig Latin,把类SQL的数据分析请求转换为MapReduce运算。

Apache HBase:分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

Apache Sqoop:用来将Hadoop和关系型数据库中的数据相互转移的工具。

Apache Zookeeper:分布式协调组件,解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度。

Apache Mahout:基于Hadoop的机器学习和数据挖掘的一个分布式框架。

Apache Cassandra:分布式NoSQL数据库系统。

Apache Avro:数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。

Apache Ambari:基于Web的工具,支持Hadoop集群的供应、管理和监控。

Apache Chukwa:用于监控大型分布式系统的数据收集系统。

Apache Hama:基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架。

Apache Flume:分布式海量日志聚合的系统,可用于日志数据收集,日志数据处理,日志数据传输。

Apache Giraph:可伸缩的分布式迭代图处理系统。

Apache Oozie:工作流引擎服务器,用于管理和协调运行在Hadoop平台上(HDFS、Pig和MapReduce)的任务。

Apache Crunch:基于Google的FlumeJava库编写的Java库,用于创建MapReduce程序。

Apache Whirr:运行于云服务的类库(包括Hadoop),可提供高度的互补性。

Apache Bigtop:对Hadoop及其周边生态进行打包,分发和测试的工具。

Apache HCatalog:基于Hadoop的数据表和存储管理,实现中央的元数据和模式管理。

Cloudera Hue:基于WEB的监控和管理系统,实现对HDFS,MapReduce/YARN,HBase,Hive,Pig的web化操作和管理。

关于大数据开发入门介绍,大数据Hadoop家族产品,以上就是一个简单的介绍了。在大数据技术当中,Hadoop家族产品占据着重要的地位,在学习阶段,需要相应的学习掌握,才能在面对实际的需求时,给出相应的解决方案。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值