hadoop,zookeeper,hbase之间的关系

最新推荐文章于 2022-02-15 17:35:13 发布

奔跑的小狗

最新推荐文章于 2022-02-15 17:35:13 发布

阅读量1.5k

点赞数 2

文章标签： hadoop hdfs

本文链接：https://blog.csdn.net/weixin_40732165/article/details/107383660

版权

Hadoop篇

hadoop是分布式系统的一个文件系统，主要有3部分分别是hdfs，yarn，mapreduce
hdfs
hdfs是hadoop管理储存的实现。
hdfs概念
数据块：就像单机系统（一台PC）上的数据块一样，提供磁盘读写的最小单位，也就是磁盘读某个数据时会把改块的数据一次性全部读入。不过单机系统上的数据块大小为512字节，hdfs数据块大小为128MB。
namenode和datanode：分布式系统储存和单机储存另一个不同就是，读取/写入某个数据时，分布式系统需要确定这个数据放在哪个主机。这也是namenode和datanode解决的问题。namenode储存着这些文件的具体位置（具体在哪个主机和哪个块）和元数据（文件的一些属性），datanode是hdfs的工作结点，负责储存并检索数据块。因为namenode如果损坏后整个系统就不能使用，所以为了高可用性secondnamenode出现了，它相当于namenode的副本。
接口：hdfs提供上层程序所需要的新建文件，读取文件等接口。
以上是《Hadoop权威指南》第三章的内容总结
yarn
有了hdfs，解决了分布式储存的问题，那么如果有多个分布式程序运行如何给它们合理的分配资源呢（程序所需要的cpu，内存），这时候yarn就出现了，如果没有yarn的话，Hadoop也自带着一个简单的资源管理器，但yarn更完善。
和namenode，datanode相似，yarn也有一个管理集群资源的管理器resourceManager和n个节点管理器，还有n个用于运行程序进程的容器，这个容器有资源限制（CPU，内存等），如下是进程申请在分布式系统中运行的流程

首先像老大ResourceManager请求，老大看一下这个程序应该在那个小弟那运行，然后把程序交给小弟，小弟就把它放在容器里面运行，如果这个程序需要更多的资源，小弟做不了主就向老大咨询，老大然后让别的小弟一起帮他运行这个程序。
资源分配的调度：
FIFO调度器，容量调度器，公平调度器。这些调度器就是用来分配资源的。
在这里插入图片描述

如上图所示，FIFO就是谁先运行谁是爸爸，容量调度器就是while（1）和for（int i=0；i<1；i++）各一个通道，打不过我躲的过。公平调度器就很公平了，大任务变的通情达理，主动给小任务腾出点地方来。
以上是《Hadoop权威指南》第四章的内容总结
mapreduce
mapreduce是Hadoop用于数据分析最重要的一块，这里只稍微介绍一下mapreduce。
mapreduce，分为map和reduce两个步骤。
在这里插入图片描述
如果hdfs系统中有定州市近30年每一天的气温，并且以月为单位通过文件形式储存在分布式系统中，那么我们想知道定州市每年的最高气温则需要mapreduce的帮助，首先写一个map函数用来分析数据，然后写一个reduce函数整合数据。当运行这个程序的时候，首先将这个程序打包成jar发送到每个节点上去，然后这个程序向yarn申请运行所需要的资源，AppMaster判断这个程序是不是小作业，如果不是小作业，那么就会继续申请资源也就是步骤8，yarn分配好资源以后，每个节点运行map函数， map函数运行完以后将数据发送到reduce进行整合。
map的输出必须是键值对，reduce的输入也是键值对，并且和map的输出类型一致，map和reduce之间还有一个shuffle用于对数据的排序。
mapreduce具体用法和机制请见《Hadoop权威指南》第2章，第6章，第7章，第8章，第9章。