今天认识了Hadoop的核心板块,Hadop的核心板块主要包括:
- HDFS:(Hadoop Distrubuted File System)可以提供高吞吐量访问的分布式文件系统。
- YARN:用于任务调度和集群资源管理的框架
- MapReduce:基于YARN之上,用于大型数据集并行处理的系统。
- ZooKeeper:一个高性能的分布式应用程序的协调服务。
- Flume:一个日志收集系统,用于将大量日志数据从许多不同的源进行收集,聚合,最终移动到一个集中的数据中心进行存储。
- Kafka:一个高吞吐量的分布式发布订阅消息系统。
- Sqoop:用于在关系型数据库与Hadoop平台之间进行数据导入和导出的工具。
- Elasticsearch:一个基于Lucene的分布式全文搜索引擎。
- Hive:基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能(大约兼容80%的语法),可以将SQL语句转化呈MapReduce任务运行。
- Storm:一个分布式的实时计算系统。
- Spark:一种快速通用的Hadoop数据计算引擎。Spark提供了一个简单而有表现力的编程模型,该模型支持广范的应用程序,包括ETL、机器学习、流处理和图像计算。
现在大三,双非二本院校 大数据专业,个人原因不打算考研,准备主攻Hadoop生态系统。机器学习等大数据算法。购买了一本张伟洋老师的hadoop大数据技术开发实战,希望通过写博客记录我每天的学习成果。感兴趣的小伙伴可以一起学习,一起进步!