Hadoop
hdfs
分布式文件存储系统
- namenode:作为master,负责整个系统的元数据的存储,管理整个集群数据的block分配和调度
- datanode:数据节点,存放数据
- block数据存储的最小粒度,默认128MB一个
- 数据副本:以block为粒度进行副本备份,可配置
MapReduce
计算系统
- map:一段计算函数(代码),将一个任务拆分为多个map,放在不同的计算节点,分开执行,并将执行结果存储落盘
- reduce:将多个map执行的结果从磁盘中读取,并进行聚合、汇总,再讲最终结果放入hdfs
Yarn
作为Hadoop的资源调度器,负责系统资源cpu等的资源调度工作
Hive
基于Hadoop的一种大数据管理框架,用来进行数据提取、转化、加载,将hadoop的一些文件语义操作通过类sql实现,并可通过类sql完成一些计算任务,计算任务可通过不同计算框架执行(原生mapreduce、spark、Tez);
hive可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转化为MapReduce任务进行运行
Spark
基于hadoop的MapReduce任务,做了一系列优化,将计算任务通过有向无环图进行重新整理,并将中间结果放入内存,提升了计算效率;
Sqoop
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库*(例如 : MySQL ,Oracle ,Postgres等)*中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Superset
可视化图标工具,类似于grafna
库中。
Superset
可视化图标工具,类似于grafna