1、Hadoop是什么
- Apache基金会的分布式系统基础架构(多台服务器来共同完成某一个任务)
- 主要解决海量数据的存储和海量数据的分析计算问题
- 广义上指Hadoop生态圈
2、Hadoop优势
- 高可用
- 高扩展
- 高效
- 高容错性
3、Hadoop组成
-
1.x
Common 辅助工具
HDFS 数据存储
MapReduce 计算+资源调度 -
2.x
Common 辅助工具
HDFS 数据存储
MapReduce 计算
Yarn 资源调度 -
3.x
在组成上与2.x没什么区别
1、HDFS
NameNode(NN):记录数据存储在什么位置
DataNode(DN):每个服务器都是一个DataNode,它具体的存储数据
2NN:辅助NameNode工作,每隔一段时间对NameNode元数据备份
2、YARN
ResourceManager(RM):整个集群资源的老大,管理着整个集群的cpu、内存等资源
NodeManager(NM):管理着具体一台服务器的资源
ApplicationMaster(AM):单个任务运行的老大
Container:容器,相当于一台独立的服务器,里面封装了任务运行所必需的资源,如内存、cpu、磁盘、网络等
3、MapReduce
MapReduc分为两个部分
Map:处理
Reduce:汇总
4、三者之间的配合
5、大数据生态体系
结构化数据(数据库): Sqoop数据传递
半结构化数据(文件日志):Flume日志收集
非结构化数据(视频):Kafka消息队列