- 博客(6)
- 收藏
- 关注
原创 YARN的共享存储服务
文章目录前言YARN的共享存储服务的起源YARN的共享存储服务架构共享存储服务的组件构成共享存储服务的流程后续改进工作参考文献前言在YARN上运行的任务,在任务正式开始运行之前,需要有一步资源的localization的过程,然后用户的任务才能顺利地跑起来。这个”资源“可以是用户依赖的库文件等任务运行所需要的文件。这些资源文件被YARN中此任务对应的Container所共享,这些Contai...
2019-05-29 00:25:33 1130
原创 论分布式系统内的节点坏盘感知
文章目录前言磁盘损坏的定义HDFS(存储系统)的磁盘检测YARN(计算系统)的磁盘检测附注:YARN AsyncDispatcher的内部细节流程前言在分布式集群运行环境中,磁盘损坏是极为司空见惯的事情。损坏的一个直接影响是系统少了一个可用空间,同时也意味着上面存储数据的损坏。而对于这样磁盘的损坏,它分别对于存储系统和计算系统的影响并不相同。同样的,对于坏盘和处理逻辑,也未必是相同的。本文,...
2019-05-24 22:42:11 1307
原创 存储系统双缓冲设计模式
文章目录前言单缓冲模式单缓冲模式改进: 双缓冲模式前言在存储系统写数据的过程中,出于性能上的考虑,新写的数据并不是每次都flush到目标存储中的,而是先放入到一个buffer空间里,等到buffer空间满了,再做一次flush出去的动作。这种情况和人们等车的例子极为类似,一辆车等人都上满了再开,才能保证更高的效率。但是这种缓冲设计模式还是存有一个主要弊端的,当缓冲数据满后将会阻塞住后面的数据...
2019-05-19 12:18:27 2787 6
原创 YARN的Log Aggregation原理
文章目录前言Log Aggregation日志的汇聚日志的retain策略Log Aggregation的查询Log Aggregation流程图前言在大数据的时代,我们想从数据中去分析提炼出有价值的东西,背后有时是成百上千个任务的运算结果。在一些比较大的数据平台的规模下,出一份第二天的详尽的数据报表信息,需要前一天跑上数十万级别的任务数。更直接地来说,我们的计算平台单日内需要调度并执行完这...
2019-05-11 21:50:40 3148
原创 Ozone Security:基于证书的Block Access Token认证
文章目录前言Block Access Token的作用Block Acess Token的生成证书的生成Block Access Token流程图前言在HDFS中,我们有Block Access Token的机制来保证DataNode数据块访问的安全性控制。同样地,在Ozone中也有类似地一套安全机制。不过Ozone是基于X.509证书体系下的安全机制,所以在这点上和HDFS的内部实现还是有...
2019-05-06 23:59:14 1365
原创 HDFS块副本的冗余度构建流程
文章目录前言HDFS块状态类型HDFS块副本冗余度的重建重建围绕的核心:NeedReplica待复制副本的优先级划分HDFS的延时副本重建过程前言在分布式存储系统中,数据往往通过以副本的形式来保持其冗余性。因为存储的集群规模大到一定程度,每天有若干节点挂掉是很常见的现象,单副本数据显然会存在高概率丢数据的情况的。那么这里有一个问题,当存储节点挂掉的时候,系统如何再次让数据保持和原先一样的冗余...
2019-05-01 12:45:20 2012
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人