Hadoop内部是如何工作的-深入Hadoop
本章目标
- Hadoop架构
- Hadoop工作原理
Hadoop架构
Apache Hadoop是一个开源软件框架,它以分布式的方式存储数据,并以并行的方式处理数据。Hadoop提供了世界上最可靠的存储层-HDFS,一个批处理引擎-MapReduce以及一个资源管理层-YARN。
在本节,我们将深入Hadoop,了解Hadoop内部是如何工作的。
什么是Hadoop?
在我们学习Hadoop如何工作之前,我们有必要了解Hadoop基本概念,我们需要知道Hadoop到底是什么。Apache Hadoop是一套开源软件工具。它利用网络中的众多计算机来解决海量数据的处理问题。它提供了一套软件框架用于分布式存储以及分布式计算。它将文件分割成众多数据块,并将它们存储到计算机集群中。Hadoop通过在集群上复制数据块以实现容错。它通过将作业分割成彼此独立的任务来实现分布式处理。这些任务会在计算机集群上并行执行。
Hadoop组件
我们如果不了解Hadoop的核心组件就无法了解Hadoop是如何运行的。Hadoop由3个层(核心组件)构成,它们是:
HDFS-Hadoop分布式文件系统(Hadoop Distributed File System)