Hadoop核心组件（板块）

最新推荐文章于 2023-05-17 17:27:42 发布

王小磊~

最新推荐文章于 2023-05-17 17:27:42 发布

阅读量652

点赞数 1

分类专栏： Hadoop 文章标签： hadoop big data 大数据

本文链接：https://blog.csdn.net/m0_47792921/article/details/120012561

版权

16 篇文章 4 订阅

订阅专栏

今天认识了Hadoop的核心板块，Hadop的核心板块主要包括：

HDFS：（Hadoop Distrubuted File System）可以提供高吞吐量访问的分布式文件系统。
YARN：用于任务调度和集群资源管理的框架
MapReduce：基于YARN之上，用于大型数据集并行处理的系统。
ZooKeeper：一个高性能的分布式应用程序的协调服务。
Flume：一个日志收集系统，用于将大量日志数据从许多不同的源进行收集，聚合，最终移动到一个集中的数据中心进行存储。
Kafka：一个高吞吐量的分布式发布订阅消息系统。
Sqoop：用于在关系型数据库与Hadoop平台之间进行数据导入和导出的工具。
Elasticsearch：一个基于Lucene的分布式全文搜索引擎。
Hive：基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能（大约兼容80%的语法），可以将SQL语句转化呈MapReduce任务运行。
Storm：一个分布式的实时计算系统。
Spark：一种快速通用的Hadoop数据计算引擎。Spark提供了一个简单而有表现力的编程模型，该模型支持广范的应用程序，包括ETL、机器学习、流处理和图像计算。

现在大三，双非二本院校大数据专业，个人原因不打算考研，准备主攻Hadoop生态系统。机器学习等大数据算法。购买了一本张伟洋老师的hadoop大数据技术开发实战，希望通过写博客记录我每天的学习成果。感兴趣的小伙伴可以一起学习，一起进步！

关注