Hadoop大数据生态系统笔记

前言

第一次更新于2022.3.6(未发布)
第二次更新于2022.3.8

本章主要用来记录回顾总结一下2021上学期的《大数据的技术原理及应用》,因为内容超级多,在本章我只记录关于Hadoop的内容以及整体主要的框架组件。

Hadoop1.0与Hadoop2.0的区别

Hadoop1.0Hadoop2.0
HDFS单一NameNode节点,容易出现单点故障HDFS HA 和热备份机制
HDFS单一命名空间,无法隔离资源HDFS联邦
MapReduce资源管理效率低,负载大新一代资源管理框架YARN
Hadoop

Hadoop是Apache软件基金会下的一个开源分布式平台。Hadoop是基于谷歌公司所发布的三驾马车论文的开源实现。他们分别是HDFS,MapReduce,Hbase(各自对应谷歌GFS MapReduce Bigtable)。这三大组件也是Hadoop2.0的核心。当然还有一些其他作用的组件,他们的作用各不相同,每个组件都有他们自身的特点来完成大数据繁多的任务。从设计实现经过多年的发展,在零几年的时候达到巅峰,生态完善,社区活跃,实质已经成大数据领域的标准。同时也对近几年其他大数据框架产生深远影响例如Spark Flink等。或许Hadoop的计算模型MR已经跟不上企业的发展需要,在此记录Hadoop平台的核心思想以及他们的运行实现原理。

  1. HDFS
    分布式文件系统,他的英文名字我忘记了,这是Hadoop的三大核心组件之一(另外二个是MR,Yarn),HDFS是专注于解决海量大数据存储的,所以单一节点无法满足存储需要,所以才出现了HDFS分布式文件系统,它的特点提供了高可靠的冗余备份,默认冗余因子3。在我的理解来看,这就和我们的Windows的NTFS文件系统一样,都是提供底层存储的,本质区别是一个是本地系统,一个是分布式系统。

HDFS

  1. MapReduce
    Hadoop的计算模型,为海量大数据提供计算服务,这是Hadoop的计算引擎,主要用于计算批处理数据,分为MAp端和Reduce端,由于其延迟性较高,不适合实时计算。现在已经很少有企业使用了。

MR

  1. Yarn

通用资源调度框架,主要作用就是资源管理和任务调度的,Yarn是,Hadoop2.0版本新出的组件。主要对资源(CPU,内存等)进行管理分配,还有一些job任务的调度,它的出现主要是解决Hadoop1.0的单点故负载较大问题。
Yarn

  1. Hbase

Hbase非关系型数据库,属于键值数据库,这个关系型数据库和非关系型有着根本的区别,关系型数据库主要用于处理事务性数据,例如对数据的增删改查。

Hbse

  1. Hive

数据仓库是Apache下的子项目,它位于MR之上,主要提供一种类SQL的编成语言Hsql,主要作用就是可以通过编写sql的形式写mr程序,其实就是将sql转换成MR程序,只是转换这个过程被隐藏啦。这相比直接写MR应用要简单的多。Hive

  1. Zookeeper
    分布式协调工作服务属于Hadoop的组件之一,它可以为HDFS HA提供自动实时的进行单一节点的选举切换。比如NameNode的出错,它可以监控到故障,自动根据备用的节点推举出一个新的Name Node节点,并且快速顶替已经出现故障的节点,这通常只在几秒内就可以完成。
    Zookeeper
  2. Sqoop(SQL-to-Hadoop)
    主要是Hadoop和关系型数据库的数据互相转换。比如可以将Mysql数据库输入到Hadoop中,包括HDFS,Hbase或Hive,反之亦然。
    Sqoop

注:文章所有图片资源均来于网络,如有侵权,请联系作者删除。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

骆骆爱学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值