Hadoop系列篇
Hadoop的作用
Apache™ Hadoop®项目开发软件,用于可靠,可扩展,分布式计算。
Apache™ Hadoop®软件库是一个框架,允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它被设计成从单个服务器扩展到数千台机器,每台都提供本地计算和存储。
与依赖硬件来提供的高可用性不同的是库本身的设计目的是在应用程序层检测和处理故障。Apache™ Hadoop®在一组计算机上提供高可用性服务,这组计算机的每个成员都可能发生故障。
Hadoop模块
Hadoop包含5个模块
1、Hadoop Common:这个模块是一个通用模块,用来支持其他Hadoop模块
2、HDFS:全称是Hadoop Distributed File System ,指分布式文件系统,提供对应用程序数据的高吞吐量访问。
3、YARN:一个用于任务调度和集群资源管理的框架。
4、Hadoop MapReduce:一个基于YARN的系统,用于大数据集的并行处理
5、Hadoop Ozone:一个Hadoop存储对象