Hadoop概述
Hadoop这个单词本身并没有什么特殊的含义,而只是其作者Doug Cutting孩子的一个棕黄色的大象玩具的名字。
Hadoop是一个高可靠的(reliable),规模可扩展的(scalable),分布式(distributed computing)的开源软件框架。它使我们能用一种简单的编程模型来处理存储于集群上的大数据集。
Hadoop是Apache基金会的一个开源项目,是一个提供了分布式存储和分布式计算功能的基础架构平台。可以应用于企业中的数据存储,日志分析,商业智能,数据挖掘等。
Hadoop特点
Hadoop是一个能够对大量数据进行分布式处理的软件框架。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
Hadoop 还是可伸缩的,Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,所以集群可以很容易进行节点的扩展,扩大集群。能够处理 PB 级数据。
此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。
hadoop核心组件
1. hadoop包含的模块:
- Hadoop common:提供一些通用的功能支持其他hadoop模块。
- Hadoop Distributed File System:即分布式文件系统,简称HDFS。主要用来做数据存储,并提