一.起源
- 起源于搜索引擎
- 08年成为apache的顶级项目
- 09-12年 0.x-1.x快速发展,但是超大规模集群和HA等成为瓶颈
- 13-17年 2.x快速发展,解决了超大集群和HA瓶颈
- 17年至今 3.x快速发展,主要在提升执行效率(锦上添花)
二.架构
2.1核心组件
HDFS(存储),MapReduce(计算),yarn(任务调度)
2.2其他常用组件
HBase,Hive,Zookeeper,Streaming
2.3架构
![在这里插入图片描述](https://img-blog.csdnimg.cn/5ca7463c21f34bc48dfd42e016e7bfe7.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5a2Q5YWUQW50Zw==,size_20,color_FFFFFF,t_70,g_se,x_16)
2.4组件介绍
- HDFS
- 分布式文件存储系统,高容错,高可用性,流式访问等特点
- MapReduce
- 分布式计算框架,现在一般不用这个了,已经由Spark等实时计算框架取代
- yarn
- 提供资源管理和任务调度的功能
- HBase
- 基于列式的分布式数据库
- Hive
- 提供数据摘要和查询的数据仓库
- Streaming
- 解决非java程序员使用Hadoop的问题
- Zookeeper
- 分布式协同服务,主要解决分布式下数据管理问题
2.5分布式生态圈
![在这里插入图片描述](https://img-blog.csdnimg.cn/c89abbf2dc074f3db1860caa9b83b121.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5a2Q5YWUQW50Zw==,size_20,color_FFFFFF,t_70,g_se,x_16)
三.Ambari平台
- Ambari是基于Web的一个大数据管理平台,可以快速的帮助你搭建一个集群
- 同类产品CDH
- 优点:
- 图形界面操作方便
- 组件全
- 社区资源丰富
- 缺点:
- 有一些bug,但是一般重启就可以解决
- 网慢的话安装会很慢
- 优点: