Hadoop生态系统

最新推荐文章于 2023-06-23 23:27:32 发布

cs_mycsdn

最新推荐文章于 2023-06-23 23:27:32 发布

阅读量218

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/cs_mycsdn/article/details/82014711

版权

大数据专栏收录该内容

29 篇文章 0 订阅

订阅专栏

Hadoop生态系统

Hdfs 是hadoop distributed filesystem 是一种以流式访问模式来存储超大文件，运行在商用硬件集群上的分布式文件处理系统；

MapReduce 是一种用于数据处理的编程模型，本质上是并行运行的，可以将大规模数据分析任务分发给足够多机器的数据中心；

Yarn 是Yet Another Resource Negotiator缩写 hadoop的集群资源管理系统。

Avro 是一个独立于编程语言的数据序列化系统，目的是解决hadoop中Writable类型不能在多种语音的可移植性；

Flume 目的是向hadoop批量导入基于事件的海量数据，例如，利用flume从一组Web服务器中收集日志文件，转移到hdfs汇总文件中，目标是hdfs中；

Sqoop (发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Apache Pig 是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询，Pig 可以简化 Hadoop 的使用;

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行;

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式;

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户；

Mahout起源于2008年，最初是Apache Lucent的子项目，它在极短的时间内取得了长足的发展，现在是Apache的顶级项目。Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法，Mahout还包含数据的输入/输出工具、与其他存储系统（如数据库、MongoDB 或Cassandra）集成等数据挖掘支持架构。

cs_mycsdn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop生态系统

Hadoop生态系统Hdfs 是hadoop distributed filesystem 是一种以流式访问模式来存储超大文件，运行在商用硬件集群上的分布式文件处理系统；MapReduce 是一种用于数据处理的编程模型，本质上是并行运行的，可以将大规模数据分析任务分发给足够多机器的数据中心；Yarn 是Yet Another Resource Negotiator缩写 hadoop的集...
复制链接

扫一扫

专栏目录