- 大数据的特点
1、大量
2、高速
3、多样
4、低价值密度(过滤无用数据,对数据进行提纯)
Hadoop是什么
1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构
2、解决海量数据存储和海量数据分析计算问题
3、Hadoop通常是指一个更广泛的概念——Hadoop生态圈
创始人Doug Cutting学习模仿Google解决这些问题的办法
GFS-->HDFS
Map-Reduce-->MR
BigTable-->HBase
优势:
- 高可靠性:底层维护多个副本
- 高扩展性:集群之间动态分配数据
- 高效性:并行计算
- 高容错性:自动将失败任务重新分配
Hadoop3个版本的区别
Hadoop1.X组成
- Common(辅助工具)
- HDFS(数据存储)
- MapReduce(计算+资源调度)
Hadoop2.X组成
- Common(辅助工具)
- HDFS(数据存储)
- MapReduce(计算)
- Yarn(资源调度)
Hadoop3.X组成
与前两版本无任何区别
HDFS架构概述
-
NameNode(nn):
存储文件的元数据,如文件名,文件目录结构,文件属性,以及每个文件的快列表和快所在的DataNode -
DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和
-
Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份