大数据知识点全讲解之Hadoop
Hadoop介绍
Hadoop是一个开源分布式系统架构
狭义上来说,hadoop单独指代hadoop这个软件
- HDFS:分布式文件系统
- Mapreduce:分布式计算系统
- Yarn:分布式样集群资源管理
广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件
- zookeeper
- hbase
- hive
…
现在,Hadoop是处理海量数据的架构首选,它可以非常快得完成大数据计算任务
Hadoop豆知识
Hadoop历史版本:
1.x版本系列:hadoop版本当中的第二代开源版本
2.x版本系列:架构产生重大变化,引入yarn平台等许多新特性
3.x版本系列:加入多namenode新特性
Hadoop三大发行公司:
Apache
HortonWorks
ClouderaManager
为什么使用Hadoop
- 高扩展性,可伸缩
- 高可靠性
多副本机制,容错高 - 低成本
- 无共享架构
- 灵活,可存储任意类型数据
- 开源,社区活跃
Hadoop架构
HDFS(Hadoop Distributed File System)
分布式文件系统,解决分布式存储
MapReduce
分布式计算框架
YARN
分布式资源管理系统,在Hadoop 2.x中引入
Common
支持所有其他模块的公共工具程序