![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
乱炖-l
这个作者很懒,什么都没留下…
展开
-
Kafka的基础架构
简介Kafka是一个基于发布订阅的分布式消息队列,主要用于大数据实时处理场景。Producer:消息生产者,向kafka集群发送消息的客户端。Consumer:消息的消费者,向Kafka集群取出消息的客户端。Consumer Group:多个消费者也可以联合起来组成一个消费者组,这个消费者组共同消费一个topic中的数据,只不过一个topic的一个分区只能由一个消费者组中的消费者消费,并且一个消息只会被消费者组中的一个消费者所消费,其它同组消费者不会重复消费该消息。Broker:kafka集原创 2020-12-08 16:45:11 · 120 阅读 · 0 评论 -
向YARN提交作业工作流程
1.MapReduce程序提交到客户端节点2.客户端节点向RM申请ApplicationMaster,(每一个任务都会对应一个ApplicationMaster,这个ApplicationMaster负责后续任务的运行),RM告知客户端资源上传路径,这里上传资源到HDFS是因为要运行的程序需要共享到其它节点,而HDFS上的资源是可以被节点共享的。3.客户端将资源上传至目标路径。4.资源提交完毕后,客户端申请RM运行ApplicationMaster。5.RM将运行ApplicationMaster.原创 2020-12-01 15:59:03 · 191 阅读 · 0 评论 -
MapReduce的数据切片和并行度
简介MapReduce主要分为两个阶段,map阶段和reduce阶段。而map阶段的数据主要是交给MapTask来进行处理,同样reduce阶段主要是交给ReduceTask来处理。那么在这两个阶段中启动多少个Task将直接影响数据处理的效率,下面分别介绍影响这两个阶段Task数量的因素以及如何设置Task数量。MapTask的数量在介绍一个任务中MapTask数量之前要先介绍一下分片的概念。一个...原创 2020-11-30 15:56:34 · 299 阅读 · 0 评论 -
HDFS中NameNode和Secondary NameNode
NameNode和SecondaryNameNode工作机制NameNode主要是存放一些元数据信息,那么这些元数据信息如果存放在磁盘中,每次请求都去磁盘中查找元数据,这样效率很慢,所以在Hadoop中元数据都是存放在内存中的。这样会带来一个问题,如果掉电,内存中的数据就没有了,所以为了保证元数据的安全性,所以需要对内存中的元数据进行备份。所以磁盘中就产生了备份数据FsImage。但是这样还是会出现另一个问题,那就是当我们更新了内存中的元数据,就需要同时更新FsImage,这样会导致效率很低。此时引入了E原创 2020-11-29 19:55:47 · 229 阅读 · 0 评论 -
HDFS的读写机制
HDFS写数据流程1.客户端向NameNode发送上传文件的请求,NameNode会检查上传的文件是否存在,路径是否合法。2.当客户端的上传请求通过检查后,NameNode会响应客户端允许上传文件。3.客户端将待上传文件按照默认数据块大小进行分块,然后请求NameNode上传第一个数据块,让NameNode返回数据块存储节点。4.NameNode返回数据块存储的节点dn1、dn2和dn3,一般设置几个副本,将会返回几个节点。5.客户端向dn1请求建立数据上传通道,然后dn1调用dn2,dn2调用原创 2020-11-29 16:36:42 · 93 阅读 · 0 评论 -
Hadoop的组成
简介Hadoop是一个分布式系统的基础框架,现在主要是指Hadoop大数据处理生态圈,在这个生态圈中有很多大数据处理框架,其中组成Hadoop的最核心框架有三个MapReduce、YARN和Hdfs,分别是分布式计算框架、资源调度框架和分布式文件系统。HDFSHDFS是一个分布式文件系统,主要的作用是用来解决海量数据的存储问题,将很多台机子联合起来组成一个大的文件系统,这个文件系统的存储容量可以根据机子节点的数量动态的扩容和减少。这些联合起来的机子我们称为集群,集群中的单个机子称为节点。集群中的每原创 2020-11-29 15:00:20 · 810 阅读 · 0 评论