概念入手认识Hadoop
Hadoop是一个开源的,能够对大量数据进行分布式处理的软件框架,它具有可靠性、高效性及可伸缩性。
ApacheHadoop软件库是一个框架,它允许使用简单的编程模型在计算机集群之间对大型数据集进行分布式处理。它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,因此在计算机集群的顶部提供高可用性服务,每台计算机都可能发生故障。
可以理解为Hadoop是一个框架系统项目,它由很多子模块组成,其中核心模块有:HDFS、Yarn、MapReduce。
HDFS(Hadoop Distributed File System)是位于Hadoop底层的分布式文件系统,用于存储 Hadoop 集群中所有存储节点上的文件;
Yarn(Yet Another Resource Negotiator)是一个作业调度和集群资源管理框架;
MapReduce是基于Yarn的大型数据集并行处理系统;
下图显示了 Hadoop 生态系统的各种组件
可参考相关链接理解学习:
百度百科:https://baike.baidu.com/item/Hadoop
大神文章:https://www.cnblogs.com/heavenwang/p/3988033.html
参考文档:http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html
根据官网,Hadoop相关的项目有:
Zeppelin
Xxl_job
Azkaban
Sqoop
Flink
Prometheus