1、什么是Hadoop?
Hadoop是一个分布式系统。主要包含两个核心组件HDFS和MR。
HDFS: 分布式存储系统,解决海量数据的存储问题。
MR:分布式计算框架,解决海量数据的处理问题。
在基础的HDFS和MR基础上,Hadoop生态圈又加入了其它的组件:
Habse 非关系型的分布式数据库,
Hive基于HDFS的数据仓库,
Pig 一个基于MR的大数据分析平台,提供PigLatin类似SQL的查询语言。
Storm 基于HDFS的流数据处理框架
Spark 一个架构在HDFS之上的基于内存的分布式计算框架。
2.HDFS的特点
2.1、HDFS的设计初衷是为了解决海量数据的存储问题,HDFS具有以下特性:
1、流式读写,一次写入,多次读取,只允许追加,不允许修改。
2、存储大数据集
3、支持低廉的硬件设备
4、简单的文件模型
5、跨平台
缺点:
1、不是低延迟访问
2、无法高效存储大量小文件
3、不支持多用户写入及任意修改文件。
2.2、HDFS的组成:
HDFS采用Master/Slave架