.
Hadoop是Apache公司开发的一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。
Hadoop的核心有以下几点
HDFS(分布式文件存储系统)
数据以块的形式,分布在集群的不同节点。在使用 HDFS时,无需关心数据是存储在哪个节点上、或者 是从哪个节点从获取的,只需像使用本地文件系统一 样管理和存储文件系统中的数据。
MapReduce(分布式计算框架)
分布式计算框架将复杂的数据集分发给不同的节点去操作,每个节点会周期性的返回它所完成的工作和最新的状态。
YARN(资源调度器)
相当于电脑的任务管理器,对资源进行管理和调度