- 博客(6)
- 收藏
- 关注
原创 HDFS的block和切片(split)的区别
1:split(切片)是在mapreduce时运用的;block是在用hdfs时运用的。2:split即为在block前,将文件先进行每块的标记,不对文件进行任何动作,是为了更好的让block更快的进行的预制操作,为了是mapreduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输3:block(切块),将文件从客户端上传到hdfs时,hdfs进行的操作,将文件分成一个一个的块,是物理意义上的划分4:split是逻辑意义上的划分...
2021-10-30 23:06:19 436 1
原创 节点距离计算
1:如在同一节点,节点间距离为02:如在同一机架,不同节点,它们的老大是这个机架,它们到机架的距离都为1,它们间距离为1+1=23:如在同一集群,不同机架,它们的老大是这个集群,它们要到达集群的话,要先经过机架(距离为1)在到达集群(距离为2),它们间距离为2+2=44:如在同一数据中心,不同集群,他们的老大是这个数据中心,它们要到数据中心的话,要先经过机架(距离为1),再到集群(距离为2),最后才到数据中心,它们间距离为3+3=6...
2021-10-30 22:46:51 166
原创 HDFS写数据流
大部分hdfs程序对文件操作采用" 一次写多次读取”的模式写数据过程:简述:客户端先通知nn节点:我要写文件了,确认客户端权限和没有相同的文件以后,nn节点创建一个新的文件记录;然后把文件分成一个一个的数据块(默认大小64mb)通过文件流的方式向dn节点中写数据,写数据的时候,注意是会写冗余数据,冗余数据块默认三个;最后,只有冗余数据块全部写完,dn节点再向客户端发出确认,然后客户端向nn节点发出结束消息,并将文件的块信息存储在nn节点里面。1:客户端调用分布式文件系统(Distribut...
2021-10-30 17:17:38 154
原创 HDFS读数据流
1:hdfs读数据过程:简述:先从nn节点得这些信息:1.这个文件有哪些数据块;2.这些数据块放在哪里或者是取哪个节点上的什么数据块。然后客户端直接从dn节点里面用数据流的方式来读取数据。最后关闭这个数据。1:客户端调用分布式文件系统对象中的open()函数来读取所需数据。2:distributed file system会通过rpc协议调用名称节点(name node)来确定所客户端请求的文件”“块”的位置。要注意的是,nn节只会返回调用文件中刚开始的那“几个”块,不会吧所有的块...
2021-10-30 15:29:17 152
原创 yarn的工作机制
yarn工作机制概述:1:用户向客户端提交一个任务(job)至资源管理器(resource manager),可以指定提交至哪个队列,要哪些资源,可对每个计算引擎进行设置。如未设置,一般会使用默认配置。2:资源管理器收到提交任务的请求后,开始会判断资源和队列满不满足要求来单独使用一个节点管理(node manager),通知节点管理启动一个储存容器(container)(container就是一个向节点管理申请一定资源(cpu,内存等)的程序),被称为应用程序包(app mstr),后面的流程...
2021-10-26 21:52:07 588
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人