- 大数据框架按功能来划分
- 海量数据存储:
HDFS、Hive(本质存储数据还是HDFS)、Hbase、ES(ElasticSearch) 海量数据分析
MapReduce、Spark、SQL最原始的Hadoop框架
- 数据存储:HDFS(Hadoop Distributed File System)
数据分析:MapReduce
Hadoop的起源
- Google的三篇论文
虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的设计论文,奠定了风靡全球的大数据算法的基础!
Google FS——HDFS
MapReduce——MapReduce
BigTable——HBase
理念:将任务分解然后再多态处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。 分布式
相对于集中式而言
需要多台机器进行协助完成
元数据:记录数据的数据
架构(主从架构):主节点 Master 老大,管理者
管理
从节点 Slave 从属,奴隶,被管理者
干活Hadoop也是分布式架构
- HDFS
-主节点:NameNode
决定着数据存储到哪个DataNode上
将存储的文件划分成block块进行存储(128MB/block)
每个block的副本是三个
-从节点:DataNode
存储数据,真正存储数据块的地方(实际存储在机器的硬盘上)
- MapReduce
-分而治之的思想
-将海量的数据划分为多个部分,每部分睡进行单独的处理,最后将所有的结果进行合并
-map task
单独处理每一部分的数据
-reduce task
合并map task的输出
- Yarn
-分布式集群资源管理框架,管理者集群的资料(memory,cpu core)
-合理调度分配给各个程序(MapReduce)使用
-主节点:resourceManager
掌管集群中的 资源
接收客户端提交的应用
-从节点:nodeManager
管理当前节点的资源
-总结:Hadoop的安装部署
. 都属于java进程,就是启动JVM进程,运行服务。
. HDFS:存储数据,提供分析的数据
NameNode/DataNode
. Yarn:提供程序运行的资源
ResourceManager/NodeManager