1、简介:
Apache Hadoop是一个致力于可靠的,可伸缩的,分布式计算的开源项目,它允许使用简单的编程模型实现在上千台机器组成的集群中分布式地处理大型数据集,每台机器都提供本地计算和本地存储,与在硬件层面实现高可用相比,它是在应用层面监测和处理错误。
2、项目的组成部分:
该工程主要包含四个模块:
- Hadoop Common:供其他三个模块使用的工具类;
- Hadoop Distribute File System(HDFS):一个高吞吐的分布式文件系统;
- Hadoop YARN:一个负责任务调度和集群资源管理的框架;
- Hadoop MapReduce:一个基于Hadoop YERN并行处理大型数据集的系统;
- Hadoop Ozone:主要提供Hadoop的对象存储服务。