hadoop,zookeeper,hbase之间的关系

Hadoop篇

hadoop是分布式系统的一个文件系统,主要有3部分分别是hdfs,yarn,mapreduce
hdfs
hdfs是hadoop管理储存的实现。
hdfs概念
数据块:就像单机系统(一台PC)上的数据块一样,提供磁盘读写的最小单位,也就是磁盘读某个数据时会把改块的数据一次性全部读入。不过单机系统上的数据块大小为512字节,hdfs数据块大小为128MB。
namenode和datanode:分布式系统储存和单机储存另一个不同就是,读取/写入某个数据时,分布式系统需要确定这个数据放在哪个主机。这也是namenode和datanode解决的问题。namenode储存着这些文件的具体位置(具体在哪个主机和哪个块)和元数据(文件的一些属性),datanode是hdfs的工作结点,负责储存并检索数据块。因为namenode如果损坏后整个系统就不能使用,所以为了高可用性secondnamenode出现了,它相当于namenode的副本。
接口:hdfs提供上层程序所需要的新建文件,读取文件等接口。
以上是《Hadoop权威指南》第三章的内容总结
yarn
有了hdfs,解决了分布式储存的问题,那么如果有多个分布式程序运行如何给它们合理的分配资源呢(程序所需要的cpu,内存),这时候yarn就出现了,如果没有yarn的话,Hadoop也自带着一个简单的资源管理器,但yarn更完善。
和namenode,datanode相似,yarn也有一个管理集群资源的管理器resourceManager和n个节点管理器,还有n个用于运行程序进程的容器,这个容器有资源限制(CPU,内存等),如下是进程申请在分布式系统中运行的流程

首先像老大ResourceManager请求,老大看一下这个程序应该在那个小弟那运行,然后把程序交给小弟,小弟就把它放在容器里面运行,如果这个程序需要更多的资源,小弟做不了主就向老大咨询,老大然后让别的小弟一起帮他运行这个程序。
资源分配的调度:
FIFO调度器,容量调度器,公平调度器。这些调度器就是用来分配资源的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如上图所示,FIFO就是谁先运行谁是爸爸,容量调度器就是while(1)和for(int i=0;i<1;i++)各一个通道,打不过我躲的过。公平调度器就很公平了,大任务变的通情达理,主动给小任务腾出点地方来。
以上是《Hadoop权威指南》第四章的内容总结
mapreduce
mapreduce是Hadoop用于数据分析最重要的一块,这里只稍微介绍一下mapreduce。
mapreduce,分为map和reduce两个步骤。
在这里插入图片描述
如果hdfs系统中有定州市近30年每一天的气温,并且以月为单位通过文件形式储存在分布式系统中,那么我们想知道定州市每年的最高气温则需要mapreduce的帮助,首先写一个map函数用来分析数据,然后写一个reduce函数整合数据。当运行这个程序的时候,首先将这个程序打包成jar发送到每个节点上去,然后这个程序向yarn申请运行所需要的资源,AppMaster判断这个程序是不是小作业,如果不是小作业,那么就会继续申请资源也就是步骤8,yarn分配好资源以后,每个节点运行map函数, map函数运行完以后将数据发送到reduce进行整合。
map的输出必须是键值对,reduce的输入也是键值对,并且和map的输出类型一致,map和reduce之间还有一个shuffle用于对数据的排序。
mapreduce具体用法和机制请见《Hadoop权威指南》第2章,第6章,第7章,第8章,第9章。

《Hadoop权威指南》链接:https://pan.baidu.com/s/1saxupYjvPBVBbLmJ7DgEOQ
提取码:xe12

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值