本篇讲解Hadoop相关的背景知识,涉及一些常见的概念,组件等,是一篇科普性文章,欢迎食用和交流。
Hadoop概述
Hadoop这个单词本身并没有什么特殊的含义,而只是其作者Doug Cutting孩子的一个棕黄色的大象玩具的名字。
Hadoop是一个高可靠的(reliable),规模可扩展的(scalable),分布式(distributed computing)的开源软件框架。它使我们能用一种简单的编程模型来处理存储于集群上的大数据集。
Hadoop是Apache基金会的一个开源项目,是一个提供了分布式存储和分布式计算功能的基础架构平台。可以应用于企业中的数据存储,日志分析,商业智能,数据挖掘等。
hadoop核心组件
1. hadoop包含的模块:
Hadoop common:提供一些通用的功能支持其他hadoop模块。
Hadoop Distributed File System:即分布式文件系统,简称HDFS。主要用来做数据存储,并提供对应用数据高吞吐量的访问。
Hadoop Yarn:用于作业调度和集群资源管理的框架。
Hadoop MapReduce:基于yarn的,能用来并行处理大数据集的计算框架。
2. HDFS:
HDFS是谷歌GFS的一个开源实现,具有扩展性,容错性,海量数据存储的特点:
扩展性,主要指很容易就可以在当前的集群上增加一台或者多台机器,扩展计算资源。
容错性,