Hadoop生态系统下各个模块的特点和应用场景

最新推荐文章于 2024-06-26 11:32:56 发布

Elora_

最新推荐文章于 2024-06-26 11:32:56 发布

阅读量1.2k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/Elora_/article/details/106796826

版权

笔记专栏收录该内容

10 篇文章

订阅专栏

在这里插入图片描述
HDFS 是分布式文件系统，是Hadoop生态系统中数据存储管理的基础。它以流式访问模式访问应用程序的数据，提高了整个系统的数据吞吐量，因而非常适用于具有超大数据集的应用程序中。
MapReduce是分布式并行编程模型，用于大规模数据集的并行运算。
YARN是资源管理和调度器，管理各个机器的CPU和内存，并且合理调度分配资源给各个程序使用。YARN是资源管理和调度器，管理各个机器的CPU和内存，并且合理调度分配资源给各个程序使用。
Hbase是基于列存储的非关系型的分布式数据库，它针对结构化数据，具有可伸缩，高可靠，高性能的特点，同时支持MapReduce处理。Hbase采用的是Geogle BigTable的数据模型，能较好地支持大规模数据的随机，实时的读写操作。
Pig是一个基于Hadoop的大规模数据分析平台，Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口类似SQL的查询语言Pig Latin。
Hive是基于Hadoop的一个工具，即数据仓库，提供完整的SQL查询，可以将SQL语句转化为MapReduce任务进行运行。
Sqoop是SQL-to-Hadoop的缩写，主要目的是在Hadoop（Hive）与传统数据库间进行数据的ETL(extract/transform/load,抽取/转换/加载)操作。它可以将一个关系型数据库中的数据导入HDFS中，也可以将HDFS的数据导入关系数据库中。其中它导入导出的特色在于通过Hadoop的MapReduce把数据从关系型数据库中导入数据到HDFS，因此，它具备MapReduce的并行化和容错性。
Flume 收集日志的工具，收集各个应用系统和框架的日志，将其放到HDFS的相应目录下。作为一种日志收集系统，Flume具有分布式，高可靠，高容错，易于制定和扩展的特点。
Mahout主要目标是提供可扩展的机器学习算法以及实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。它的核心是机器学习算法以及实现。除此之外，Mahout还包括数据的输入/输出工具，与其他存储系统（如数据库，MongDB或Cassandra）集成等支撑性框架。目前，Mahout已经包含了聚类，分类，贝叶斯，k均值和遗传算法等常见的机器学习和数据挖掘方法。
Spark是类似于Hadoop MapReduce的通用并行框架。
ZooKeeper主要解决的是分布式环境下的协作服务问题，包括命名服务，状态同步，集群管理，配置同步，分布式锁，队列管理等。它的设计目标和主要特点是：简单性，自我复制，顺序访问，高速读取。