Hadoop生态系统下各个模块的特点和应用场景

在这里插入图片描述
HDFS 是分布式文件系统,是Hadoop生态系统中数据存储管理的基础。它以流式访问模式访问应用程序的数据,提高了整个系统的数据吞吐量,因而非常适用于具有超大数据集的应用程序中。
MapReduce是分布式并行编程模型,用于大规模数据集的并行运算。
YARN是资源管理和调度器,管理各个机器的CPU和内存,并且合理调度分配资源给各个程序使用。YARN是资源管理和调度器,管理各个机器的CPU和内存,并且合理调度分配资源给各个程序使用。
Hbase是基于列存储的非关系型的分布式数据库,它针对结构化数据,具有可伸缩,高可靠,高性能的特点,同时支持MapReduce处理。Hbase采用的是Geogle BigTable的数据模型,能较好地支持大规模数据的随机,实时的读写操作。
Pig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口类似SQL的查询语言Pig Latin。
Hive是基于Hadoop的一个工具,即数据仓库,提供完整的SQL查询,可以将SQL语句转化为MapReduce任务进行运行。
Sqoop是SQL-to-Hadoop的缩写,主要目的是在Hadoop(Hive)与传统数据库间进行数据的ETL(extract/transform/load,抽取/转换/加载)操作。它可以将一个关系型数据库中的数据导入HDFS中,也可以将HDFS的数据导入关系数据库中。其中它导入导出的特色在于通过Hadoop的MapReduce把数据从关系型数据库中导入数据到HDFS,因此,它具备MapReduce的并行化和容错性。
Flume 收集日志的工具,收集各个应用系统和框架的日志,将其放到HDFS的相应目录下。作为一种日志收集系统,Flume具有分布式,高可靠,高容错,易于制定和扩展的特点。
Mahout主要目标是提供可扩展的机器学习算法以及实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。它的核心是机器学习算法以及实现。除此之外,Mahout还包括数据的输入/输出工具,与其他存储系统(如数据库,MongDB或Cassandra)集成等支撑性框架。目前,Mahout已经包含了聚类,分类,贝叶斯,k均值和遗传算法等常见的机器学习和数据挖掘方法。
Spark是类似于Hadoop MapReduce的通用并行框架。
ZooKeeper主要解决的是分布式环境下的协作服务问题,包括命名服务,状态同步,集群管理,配置同步,分布式锁,队列管理等。它的设计目标和主要特点是:简单性,自我复制,顺序访问,高速读取。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值