Hadoop 大数据基础篇(零)

1. 什么是Hadoop

Hadoop是一个分布式计算平台,能够允许使用编程模型在集群上对大型数据集进行分布式处理,主要解决海量数据的存储和海量数据的分析计算 问题。

Hadoop的核心组件包括:

  • HDFS(分布式文件存储平台):用于存储大规模数据。
  • MapReduce(计算引擎):用于数据的并行处理。
  • YARN(资源调度平台):用于资源管理和任务调度。

2. Hadoop的优势

Hadoop具有以下几个显著优势(四高):

  1. 高扩容:Hadoop在集群中分发数据并完成数据计算,集群可以方便地进行扩展节点。
  2. 高效率:在集群中处理和分发数据,处理速度非常快。
  3. 高可靠:存储在HDFS上的数据文件一般有多个备份,保证了数据的可靠性。
  4. 高容错:将运行失败的计算任务重新分配,确保任务的顺利完成。

3. Hadoop 1.0、2.0、3.0的区别

Hadoop 1.0

  • 由HDFS和MapReduce组成。
  • 存在单点故障问题,扩展性差,性能较低。

Hadoop 2.0

  • 引入了YARN,替代了JobTracker,提供了更好的资源管理和调度。
  • 支持HDFS高可用性(HA),通过两个NameNode解决了单点故障问题。

Hadoop 3.0

  • 基于JDK 1.8,进行了性能优化。
  • 支持多个NameNode,提高了系统的可用性。
  • MapReduce本地优化,性能提升约30%。

4. 集群模块启动/停止命令

1. 整体启动/停止HDFS

  • 启动HDFS:     start-dfs.sh

  • 停止HDFS:     stop-dfs.sh

2. 整体启动/停止YARN

  • 启动YARN:      start-yarn.sh

  • 停止YARN:      stop-yarn.sh

3. 所有模块启动停止使用方法:

  1. 启动所有服务

    start-all.sh
  2. 停止所有服务

    stop-all.sh

注意:如果有节点挂掉需要先停止所有服务再启动,不要直接启动

5. 常用端口信息

Hadoop 2.x

  • NameNode内部通信端口:8020/9000
  • NameNode HTTP UI:50070
  • YARN ResourceManager:8088
  • MapReduce 查看执行任务端口:19888

Hadoop 3.x

  • NameNode内部通信端口:8020/9000/9820
  • NameNode HTTP UI:9870
  • YARN ResourceManager:8088
  • MapReduce 查看执行任务端口:19888
模块Hadoop 2.x 端口Hadoop 3.x 端口
NameNode 内部通信端口8020/90008020/9000/9820
NameNode HTTP UI500709870
YARN ResourceManager80888088
MapReduce 查看执行任务端口1988819888

结语

以上是对Hadoop基础知识的简要介绍。Hadoop作为大数据处理的核心技术之一,其高扩展性、低成本和高效率使其在大数据领域得到了广泛应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值