hadoop
可靠的,可扩展的,分布式计算的开源软件
特点:
1.使用简单的编程模型在集群中分布式处理海量数据(简单模型)
2.节点的数量可以是单个到成千上万,每个节点都有自己的计算和存储功能(存储和 计算)
3.相对比在硬件层次做优化,hadoop提供了应用层的高性能
4.集群中的任何一个节点都允许出错(容错)
Hadoop在大数据整体上来说,特指是hadoop生态圈。
hadoop能解决什么问题?
1.大量数据的存储。
2.数据的计算。
hadoop的四大组件:
1.HDFS:
Hadoop Distributed FileSystem(解决存储问题,并且备份,默认备份3份)(存储备份)
HDFS的三个角色:
NameNode:主节点,只有一个(存储元数据,文件存储在DataNode的地址)
DataNode:从节点,数据节点,可以有无限个(存储真实数据)
SecondoryNamenode:主节点的备份节点,备份元数据,全局只有一个,用来防止Namenode宕机(HA高可用)
2.Yarn
整体的资源调度器
3.MapReduce
解决数据怎么计算(将数据分别计算再汇总的过程)
4.Common
公共的部分
HDFS,MR名字由来:
谷歌发表了3篇论文
GFS-》HDFS
Map-Reduce-》MapReduce
BigTable -》HBase
版本:
普通版
安装简单,提供了基础功能,一般适用于初学者
商业版:
添加额外的功能,比较专业。
hadoop的安装:
1.本地安装
用于开发和简单的测试使用
2.伪分布式环境
用一台机器充当了所有的角色
3。完全分布式
每个节点都有不同的角色