大数据主要解决海量数据(TB、PB或EB)的存储和海量数据的分析计算问题
大数据的特点:
- Volume(大量)
- Velocity(高速)
- Variety(多样)
- Value(低价值密度)
大数据部门组织结构
![7239122-9c10684c935358e2.png](https://i-blog.csdnimg.cn/blog_migrate/f41ef412d3e071031131a76e033a1eb3.png)
Hadoop
Apache基金会开发的分部式系统基础架构
- GFS ---> HDFS
- Map-Reduce ---> MR
- BigTable ---> HBase
Hadoop三大发行版本
- Apache:最基础的版本,对入门学习最好
- Cloudera:在大型互联网且企业中用的较多(CDH版)
- Hortonworks:文档较好
Hadoop1.x和Hadoop2.x的区别
![7239122-73fd68790b051316.png](https://i-blog.csdnimg.cn/blog_migrate/6d52763975a6611e978956facf717335.png)
HDFS
-
NameNode(nn)
:存储文件的元数据,例如:文件名、文件目录结构、文件属性(生成时间、副本数和文件权限等)和每个文件的块列表和块所在的DataNode等。目录
-
DataNode(dn)
:在本地文件系统存储文件块数据,以及块数据的校验和。实实在在的数据
-
Secondary NameNode(2nn)
:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。辅助nn工作的
YARN
![7239122-6a79777b50f31516.png](https://i-blog.csdnimg.cn/blog_migrate/4cda06d5ba106079ecd6172211854d38.png)
-
ResourceManager(RM)
:所有节点资源的老大 -
NodeManager(NM)
:单个节点资源的老大
MapReduceMapReduce
将计算过程分为两个阶段:Map
和Reduce
-
Map
阶段并行处理输入数据 -
Reduce
阶段对Map结果进行汇总
大数据技术生态体系
![7239122-76dc4610b53feef4.png](https://i-blog.csdnimg.cn/blog_migrate/62e3293b12900e131e9fa1eb07ea4782.png)