一、大数据核心工作
1.数据存储
1. Apache Hadoop -HDFS
Apache Hadoop框架内的组件HDFS是大数据体系中使用最为广泛的分布式存储技术
2.Apache HBase
Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术,HBase是基于HDFS之上构建的
3.Apache KUDU
Apache KUDU同样为的大数据体系中使用较多的分布式存储引擎
4.云平台存储组件
初次之外,各大云平台厂商也有相应的大数据存储组件,如阿里云的OSS、UClound的US3、AWS的S3、金山云的KS3等等
2.数据计算
1.Apache Hadoop - MapReduce
Apache Hadoop - MapReduce的MapReduce组件时最早一代的大数据分布式计算引擎,对大数据的发展做出了卓越的贡献
2.Apache Hive
Apache Hive是一款以SQL为要开发语言的分布式计算框架,其底层使用了Hadoop的MapReduce技术
3.Apache Spark
Apache Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品
4.Apache Flink
Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算领域,Flink占据了大多数的国内市场
3.数据传输
1.Apache Kafka
Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。
2.Apache Pulsar
Apache Pulsar同样是一款分布式的消息系统。
二、什么是Hadoop
Hadoop是Apache软件基金会下的顶级开源项目,用以提供:
分布式数据存储
分布式数据计算
分布式资源调度
为一体的整体解决方案
三、Hadoop的功能
通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件:
HDFS组件
MapReduce组件
YARN组件
1.为什么需要分布式存储
数据量太大,单机存储能力有上限,需要考数量来解决问题
数量的提升带来的是网络传输,磁盘读写,CPU、内存等各方面的综合提升。
2.分布式的基础架构
1.大数据体系中,分布式的调度主要有2类架构模式:
去中心化模式:
去中心化模式,没有明确的中心。
众多服务器之间基于特定规则进行同步协调。
中心化模式
2.主从模式
大数据框架,大多数的基础架构上,都是符合:中心化模式的。
即:有一个中心节点(服务器)来统筹其他服务器的工作,统一指挥,统一调配,避免混乱
这种模式,也被称之为:一主多从模式,简称主从模式(Master And Slaves)
3.HDFS的基础架构
HDFS集群(分布式存储):
主角色:NameNode
HDFS系统的主角色,是一个独立的进程
负责管理HDFS整个文件系统
负责管理DataNode
从角色:DataNode
HDFS系统的从角色,是一个独立进程
主要负责数据的存储,即存入数据和取出数据
主角色辅助角色:
SecondaryNameNode
NameNode的辅助,是一个独立的进程
主要帮助NameNode完成元数据整理工作