Hadoop 工作原理
在大数据领域,Hadoop 已经成为一种流行的解决方案。Hadoop 的设计考虑到了很多方面,比如故障容错性,海量数据处理,数据本地化,跨异构硬件和软件平台的可移植性等等。本节课程详细介绍了 Hadoop 的3个重要的组件。
Hadoop架构
Hadoop 有一个主从拓扑网络,在这个拓扑里面,有一个 master 节点和多个 slave 节点。master 节点的功能就是把任务分配到多个 slave 节点和管理资源。这些 slave 节点是真正运行计算代码和存储数据的机器。而 Master 节点存储的是元数据(即关于数据的数据),元数据包括哪些呢?下面会详细介绍。
Hadoop 架构由3大组件构成:
HDFS
Yarn
MapReduce
HDFS
HDFS 即 Hadoop 分布式文件系统。它为 Hadoop 提供数据存储功能。HDFS 把大的数据文件划分成一个个小的数据单元叫做块(block),并以分布式的方式存储这