大数据主要解决海量数据(TB、PB或EB)的存储和海量数据的分析计算问题
大数据的特点:
- Volume(大量)
- Velocity(高速)
- Variety(多样)
- Value(低价值密度)
大数据部门组织结构
Hadoop
Apache基金会开发的分部式系统基础架构
- GFS ---> HDFS
- Map-Reduce ---> MR
- BigTable ---> HBase
Hadoop三大发行版本
- Apache:最基础的版本,对入门学习最好
- Cloudera:在大型互联网且企业中用的较多(CDH版)
- Hortonworks:文档较好
Hadoop1.x和Hadoop2.x的区别
HDFS
-
NameNode(nn)
:存储文件的元数据,例如:文件名、文件目录结构、文件属性(生成时间、副本数和文件权限等)和每个文件的块列表和块所在的DataNode等。 目录 -
DataNode(dn)
:在本地文件系统存储文件块数据,以及块数据的校验和。实实在在的数据 -
Secondary NameNode(2nn)
:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。辅助nn工作的
YARN
-
ResourceManager(RM)
:所有节点资源的老大 -
NodeManager(NM)
:单个节点资源的老大
MapReduceMapReduce
将计算过程分为两个阶段:Map
和Reduce
-
Map
阶段并行处理输入数据 -
Reduce
阶段对Map结果进行汇总