1. 什么是Hadoop
Hadoop是一个分布式计算平台,能够允许使用编程模型在集群上对大型数据集进行分布式处理,主要解决海量数据的存储和海量数据的分析计算 问题。
Hadoop的核心组件包括:
- HDFS(分布式文件存储平台):用于存储大规模数据。
- MapReduce(计算引擎):用于数据的并行处理。
- YARN(资源调度平台):用于资源管理和任务调度。
2. Hadoop的优势
Hadoop具有以下几个显著优势(四高):
- 高扩容:Hadoop在集群中分发数据并完成数据计算,集群可以方便地进行扩展节点。
- 高效率:在集群中处理和分发数据,处理速度非常快。
- 高可靠:存储在HDFS上的数据文件一般有多个备份,保证了数据的可靠性。
- 高容错:将运行失败的计算任务重新分配,确保任务的顺利完成。
3. Hadoop 1.0、2.0、3.0的区别
Hadoop 1.0
- 由HDFS和MapReduce组成。
- 存在单点故障问题,扩展性差,性能较低。
Hadoop 2.0
- 引入了YARN,替代了JobTracker,提供了更好的资源管理和调度。
- 支持HDFS高可用性(HA),通过两个NameNode解决了单点故障问题。
Hadoop 3.0
- 基于JDK 1.8,进行了性能优化。
- 支持多个NameNode,提高了系统的可用性。
- MapReduce本地优化,性能提升约30%。
4. 集群模块启动/停止命令
1. 整体启动/停止HDFS
-
启动HDFS:
start-dfs.sh -
停止HDFS: stop-dfs.sh
2. 整体启动/停止YARN
-
启动YARN: start-yarn.sh
-
停止YARN: stop-yarn.sh
3. 所有模块启动停止使用方法:
-
启动所有服务:
start-all.sh -
停止所有服务:
stop-all.sh
注意:如果有节点挂掉需要先停止所有服务再启动,不要直接启动
5. 常用端口信息
Hadoop 2.x
- NameNode内部通信端口:8020/9000
- NameNode HTTP UI:50070
- YARN ResourceManager:8088
- MapReduce 查看执行任务端口:19888
Hadoop 3.x
- NameNode内部通信端口:8020/9000/9820
- NameNode HTTP UI:9870
- YARN ResourceManager:8088
- MapReduce 查看执行任务端口:19888
| 模块 | Hadoop 2.x 端口 | Hadoop 3.x 端口 |
|---|---|---|
| NameNode 内部通信端口 | 8020/9000 | 8020/9000/9820 |
| NameNode HTTP UI | 50070 | 9870 |
| YARN ResourceManager | 8088 | 8088 |
| MapReduce 查看执行任务端口 | 19888 | 19888 |
结语
以上是对Hadoop基础知识的简要介绍。Hadoop作为大数据处理的核心技术之一,其高扩展性、低成本和高效率使其在大数据领域得到了广泛应用。
4864

被折叠的 条评论
为什么被折叠?



