Hadoop基础

什么是Hadoop

Hadoop是一个分布式计算平台,能够允许使用编程模型在集群上对大型数据集进行分布式处理,主要解决海量数据的存储和海量数据的分析计算 问题。

Hadoop的核心组件包括:

  • HDFS(分布式文件存储平台):用于存储大规模数据。
  • MapReduce(计算引擎):用于数据的并行处理。
  • YARN(资源调度平台):用于资源管理和任务调度。

Hadoop的优势

Hadoop具有以下几个显著优势(四高):

  1. 高扩容:Hadoop在集群中分发数据并完成数据计算,集群可以方便地进行扩展节点。
  2. 高效率:在集群中处理和分发数据,处理速度非常快。
  3. 高可靠:存储在HDFS上的数据文件一般有多个备份,保证了数据的可靠性。
  4. 高容错:将运行失败的计算任务重新分配,确保任务的顺利完成。

Hadoop 1.0、2.0、3.0的区别

Hadoop 1.0

  • 由HDFS和MapReduce组成。
  • 存在单点故障问题,扩展性差,性能较低。

Hadoop 2.0

  • 引入了YARN,替代了JobTracker,提供了更好的资源管理和调度。
  • 支持HDFS高可用性(HA),通过两个NameNode解决了单点故障问题。

Hadoop 3.0

  • 基于JDK 1.8,进行了性能优化。
  • 支持多个NameNode,提高了系统的可用性。
  • MapReduce本地优化,性能提升约30%。

结语

以上是对Hadoop基础知识的简要介绍。Hadoop作为大数据处理的核心技术之一,其高扩展性、低成本和高效率使其在大数据领域得到了广泛应用。

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值