自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

  • 博客(453)
  • 收藏
  • 关注

原创 Alluxio与底层存储系统之间的元数据同步机制

文章目录前言Alluxio内部的元数据同步行为基于给定时间,Path粒度的UFS Status Cache前言Alluxio作为一套构建于底层存储系统之上的中间层,它必不可少的会涉及到于底层系统之间metadata之间的同步问题。外部client请求访问Alluxio系统,然后Alluxio再从底层系统中(为称呼方便,后面都简称为Underlying FileSystem, UFS)查询真实的元数据信息,然后再返回给client。当然为了减少对于UFS的压力,我们当然不会每次都去查UFS。本文我们来聊

2020-08-11 23:44:42 2280

原创 Hadoop服务配置热替换框架的设计实现

文章目录前言服务热替换更新需要解决的问题点前言在分布式系统中,根据不同的运行情况进行服务配置项的更新修改,重启是一件司空见惯的事情了。但是如果说需要重启的服务所需要的cost非常高的时候,配置更新可能就不能做出频繁非常高的操作行为了。比如某些分布式存储系统比如HDFS NameNode重启一次,要load元数据这样的过程,要花费小时级别的启动时间,当其内部存储了亿级别量级的文件数的时候。那很显然对于这种高cost重启的服务来说,我们不能每次依赖重启做快速的配置更新,使得系统服务能使用新的配置值进行服务

2020-08-08 17:11:39 1048

原创 Scheme覆盖式的ViewFileSystem设计实现

文章目录前言Scheme覆盖式的ViewFileSystemViewFileSystemOverloadScheme的实现引用前言在多HDFS集群模式中,我们为了使得多集群对于client端的透明使用,一般可以采用的是ViewFs的方案。当然后来社区实现的HDFS RBF功能无疑是更佳的选择,但是在RBF出现,ViewFs实现的更早且方案更为简单,因此ViewFs是通过在client端实现的一个请求解析以及转发。但是本文我们来讨论一个ViewFs使用的痛点问题:ViewFs高成本的配置更新问题以及更为t

2020-08-02 17:40:30 931 1

原创 关于小概率锁碰撞的细粒度锁方案

文章目录前言锁的细粒度级别基于小概率锁碰撞的lock pool实现方案前言在分布式系统中,我们常常使用锁来保证操作的一致性控制。但是锁的存在则意味着必然存在着锁竞争的情况。而且这种竞争会随着外部请求量的激增而变得更为的激烈。因此我们改进的一个方向是改变锁的粗细力度,从较为简单的粗粒度锁变为更细粒度的锁。细粒度锁相较于粗粒度锁来说,毫无疑问,它能减缓激烈的锁竞争的情情况,但是它在实现上会增加额外的复杂度。这个很好理解,在server端原先只需要维护一把锁就行了,现在则要可能维护一定规模量的小锁。本文笔者

2020-07-23 00:11:24 1159 1

原创 记录一次HDFS RPC返回Response过程慢导致的性能问题

文章目录前言NameNode请求处理慢的场景RPC返回response的Handler处理慢问题HDFS RPC call异步response改造前言众所周知,在HDFS NameNode中,一直都有一个老生常谈的难题就是其扩展性的问题,而很多时候我们说HDFS的扩展性问题时我们很多时候都在谈的点在于里面全局锁的问题。一个很通常的场景是NameNode在高并发请求处理下存在着激烈的锁竞争,进而使得用户感觉到他们的请求被处理的有点慢。不过本文笔者不聊关于全局锁优化的问题,最近笔者遇到了另外一种NameN

2020-07-18 11:21:24 29720 1

原创 Alluxio基于冷热数据分离的元数据管理策略

文章目录前言Alluxio内部元数据管理架构Alluxio的支持异步写出功能的自定义Cache实现前言上篇文章末尾,笔者聊到了一种叫做分层元数据管理模式。它主张的思想是将元数据进行分级对待,比如Cache+Persist层2种,cache拿来用于热点数据的访问,而persist层即持久层则存储那些冷的访问不频繁的数据,以此达到元数据的强扩展性和一个较好的访问性能。当今存储系统Alluxio就是使用了这种分层级对待的元数据管理模式。本文我们就来简单聊聊Alluxio的tier layer的元数据管理。

2020-07-05 15:10:25 1982 1

原创 存储系统元数据管理演变升级

文章目录前言初代元数据管理内存式元数据管理分区元数据管理分层级元数据管理引用前言我们知道在一个存储系统中,不光光只有它所存储的数据文件重要,它的存储系统的元数据管理同样十分的重要。因为涉及到存储系统数据访问操作时,会经过存储系统元数据的查询或更新操作,如果元数据这边的操作出现性能瓶颈,同样会导致用户访问数据的行为出现缓慢的情况。本文我们来聊聊存储系统一般是如何做高效的元数据管理的,这里面会涉及到多种不同的元数据管理方式。初代元数据管理首先我们来看最简单原始的初代存储系统元数据管理方式,此时元数据

2020-07-02 23:48:25 947 1

原创 HDFS Rolling Upgrade的实现要点分析

文章目录前言HDFS NameNode端针对Rolling Upgrade的调整HDFS DataNode端针对Rolling Upgrade的调整引用前言我们知道HDFS Rolling Upgrade功能在几年前比较早的时间早已实现,但是我们往往只注意怎么去做HDFS Rolling Upgrade这个事情本身,但是对于HDFS如何实现Rolling Upgrade这个功能可能了解的会比较少。本文笔者来聊聊其中部分要点的设计实现,为了做到Rolling Upgrade的快速和安全性,社区在这块实现

2020-06-28 17:31:02 1402

原创 Ozone的Erasure Coding方案设计

文章目录前言EC技术以及EC下的存储效率的提升Ozone下的EC方案设计Container Level的EC实现Block Level的EC实现引用前言众所周知,在当下存储系统中为了存储效率的提升,Erasure Coding(纠删码)技术在扮演着一个越来越重要的角色。比如说目前Hadoop HDFS中,它就已经能够支持EC功能了。在EC模式下,HDFS 可以不必存储多打3份这样的冗余副本数来为了容灾保护。存储效率的提高意味着存储海量数据所需要的存储节点资源的减少。不过本文并不是聊HDFS的EC实现的

2020-06-25 16:10:45 1114

原创 关于分布式系统升级,你需要了解的几点

文章目录前言分布式系统升级的状态转化关于Upgrade需要注意的点关于Downgrade需要注意的点引用前言对于一个系统来说,进行定期的升级维护是一件比较常见的事情。但是对于复杂分布式系统的升级,系统管理员系统考虑更多的因素来做升级这个事情。同时对于分布式系统开发者来说,他们也要考虑系统升级的前后兼容性,避免升级后部分老的功能无法使用或是升级回退后之前写出的数据无法使用等等类似的情况。本文笔者来简单聊聊关于分布式系统的升级,你需要了解和注意的那些事。分布式系统升级的状态转化在介绍本文主要内容前,

2020-06-13 11:04:49 1692

原创 基于RPC Call延时返回的HDFS异步editlog原理

文章目录前言现有HDFS的RPC正常请求处理前言前面文章笔者介绍过Hadoop社区为了增加内部RPC的throughput,通过延时返回response的调整来提早释放Server端的Handler资源,以此尽可能的把Handler的处理能力用在真正的RPC请求上。HDFS目前所使用的异步editlog机制正是使用了这个优化改进。这里所说的HDFS异步editlog写出并不是大家所简单的认为NameNode完全异步化写出editlog到其JournalNode服务中,然后直接返回结果给client。那

2020-06-04 23:43:07 1131 1

原创 HDFS和Ozone的数据删除原理对比思考

文章目录前言现有HDFS删除操作的性能问题HDFS删除操作的brainstorm改进想法相关设计:Ozone系统内的删除操作处理前言前段时间笔者一直在折腾HDFS大目录删除的性能问题,也尝试了很多不同的方案来降低大目录删除所带来的性能影响,包括改INodeDirectly内部child list结构,或者是在Snapshot层面做改进优化等等(详见此文章:HDFS大目录文件删除方案的实践思考)。不过后续笔者在对比HDFS的删除操作和新一代存储Ozone系统内部的删除操作时,发现二者还是存在不少区别的,

2020-05-31 17:17:59 1274 1

原创 提高RPC Server throughput的请求延时回复处理

文章目录前言前言在一套完整的分布式系统中,client端向server端发起一个请求,然后client等待此请求被server端处理完毕,然后接受到serve的返回结果。自此一个请求就算作是被处理完了。这种block等待处理结果的请求处理行为在我们日常的系统中十分的常见。但是这种处理方式的一个明显弊端是,未处理完成的请求势必会占住server端的处理资源。因此一般常见的改进做法是提高server端的Handler数量,来提高服务端的请求并发处理能力,这种做法是比较简单直接的。但其实这里还有另外一个方向

2020-05-24 23:40:18 957

原创 分布式系统内部RetryCache机制

前言在分布式系统的运行过程中,出现网络不稳定(例如网络超时)导致的client请求回复超时是时有发生的事。在这种低概率发生的情况下时,client端其实是无法感知它的请求是不是真正的被处理了,它只能是基于坏的情况(即请求没被server处理的情况),然后执行重试操作。问题就出现在这里,对于某些非幂的操作而言,操作重试是会返回不同的结果的。这个时候,其实server端不应该执行client端发起的第二次请求的,假设server已经成功处理了client的第一次请求。本文我们就来聊聊针对非幂等操作处理的Re

2020-05-17 10:28:15 959 2

原创 HDFS federation集群间的数据Balance工具方案

文章目录前言粗粒度的federation Balance方案系统化的federation Balance工具方案引用前言在目前单一大HDFS集群越来越无法支撑我们的业务场景时,越来越多的公司开始考虑采用HDFS federation方案来做。这里就自然会衍生出一个问题:新federation出来的Namespace,我如何将数据从原集群(NameNode)同步出来呢?而且在这个过程中,还会有每天增量数据的写入在老集群内。假若只是静态的数据,我们启动一个distcp任务就可以做这部分跨namespace

2020-05-09 11:49:24 1240

原创 Hadoop ViewFs的多Replication模式:Nfly link模式

文章目录前言Nfly link模式的由来前言在多集群模式下,为了保证数据的一定冗余性要求,我们有时会跨集群或跨data center去备份一些重要的数据。这样可以避免某天一旦一个cluster或者data center处于不可用状态时,从而影响集群正常的数据服务。如果在不额外实现此功能代码的情况下,我们可以采用简单直接的Distcp工具来做集群间的数据拷贝。不过这种方式无法做到实时的数据re...

2020-05-04 15:46:12 823

原创 Hadoop ViewFs允许hdfs schema的重载

文章目录前言Hadoop ViewFs的问题痛点Hadoop ViewFs的重载hdfs schema方式ViewFs的mount point中心化管理问题引用前言在大数据时代,随着业务的迅速扩张,很多大公司往往内部会有多cluster模式来支撑其内部的数据体量。在这期间就会涉及到一个多集群管理协调的问题,比如典型的HDFS的多集群管理。社区在早期实现的ViewFs以及后来的Router-b...

2020-05-03 11:53:07 883 2

原创 Apache Ratis中的multi-raft实现原理

文章目录前言Single-Raft模式Multi-raft改进引用前言在之前笔者写过一篇关于Ozone利用Apache Ratis multi-raft功能来提升其系统的throughput的文章(Ozone Multi-Raft机制对于更大throughput处理量的支持),不过那篇博文只是简单介绍了下在multi-raft的支持下,一个Ozone Datanode节点可以允许成为多个Pi...

2020-05-01 12:02:53 2996

原创 HDFS大目录文件删除方案的实践思考

文章目录前言HDFS的大目录删除行为HDFS大目录删除实现方案思考引用前言前面几篇文章笔者讲述了2篇关于文件目录删除的相关文章,也提到了一些相对应的解决方案和思路。不过笔者本文想再谈谈对于这个问题的一些思考,主要关注在HDFS下大目录的删除性能影响方面。不敢说是谈论的是HDFS大目录删除的最佳实践方案,但是在某些点上,在实际环境中还是有一定的可应用性的。本文部分内容会引入笔者前段时间写的两篇...

2020-04-26 23:34:07 1583

原创 Ozone SCM HA设计浅谈

文章目录前言SCM HA相较于OM HA的区别点SCM HA服务内存状态数据一致性的控制Follower SCM内部管理服务的“失效”处理SCM HA failover行为处理SCM HA的整体架构图引用前言在前面的文章中,笔者写过关于Ozone OM HA实现的相关文章(Ozone OM服务HA原理分析),里面谈论了目前OM HA的一些实现细节以及OM HA如何搭建这类的说明性文章。但是一...

2020-04-21 23:17:31 1179

原创 文件系统大目录下的操作性能效率提升

文章目录前言现有HDFS大目录文件操作效率基于哈希分区的多List目录存储结构HashedArrayList的element的索引查找HashedArrayList的代码实现HashedArrayList性能测试引用前言在文件系统的存储中,我们一般不建议是一个目录下存放过多的文件或子目录。因为这会造成后续在此目录下文件或子目录的操作效率。我们宁愿用分散存储的方式,也比用集中在一个目录下的方式...

2020-04-11 18:08:21 1946

原创 一个SkipList简单跳表的实现

文章目录前言SkipList样例结构SkipList样例代码简单实现前言上一篇文章笔者写了关于HDFS使用SkipList跳表的结构来加速Snapshot的diff比较过程,然后加速HDFS大Snapshot删除的过程(此部分文章可阅读上篇博文:聊聊HDFS删除Snapshot行为导致的NameNode crash)。本文笔者想继续聊聊这个跳表结构,简单说就是构造多链表层级结构,利用(数据存...

2020-04-04 11:44:15 609

原创 聊聊HDFS删除Snapshot行为导致的NameNode crash

文章目录前言HDFS的Snapshot以及delete Snapshot行为基于SkipList的Snapshot diff预先合并引用前言关于HDFS的快照,使用过的同学对于这个功能还是持正面评价居多的吧。这个特性所能带给我们最大的好处就是防止用户误删数据导致数据丢失的问题了。从数据保护层面而言,HDFS Snapshot确实起到了十分关键的作用。但是话虽然是这么说,那么如果我们想确保集群...

2020-04-01 22:45:16 1026

原创 Ozone基于Resource的细粒度化锁管理器实现

文章目录前言全局锁的细粒度拆分化Ozone内部基于Resource的锁管理器模型Ozone内部锁管理器实现前言众所周知在HDFS中,为了保证元数据更新的一致性,它所使用的是全局锁的模式。不过这在一定模式下会导致激烈的锁竞争的情况发生,尤其当集群规模日趋膨胀的时候,获取锁的这种代价就会变得越来越高。如果在不降低集群请求吞吐量的情况下,我们如何优化这一点呢?一种很自然的想法是将锁的粒度变细,锁粒...

2020-03-23 22:37:26 685

原创 Ozone Block Chunk文件的layout方式

文章目录前言Ozone Datanode Chunk文件原有layoutOzone Datanode Chunk Layout:FILE_PER_CHUNK和FILE_PER_BLOCK引用前言在Ozone中,Ozone的文件对象数据是以Block的形式进行组织的,和HDFS想类似。不过Ozone对Block进行实际存储的时候,是以更细粒度的chunk文件的形式进行物理存储的。简单来说,Bl...

2020-03-15 13:29:38 837

原创 增量capacity分配的ByteBuffer实现

文章目录前言Ozone内部的增量ByteBuffer实现引用前言对于Java nio ByteBuffer,我们常常会拿来做缓冲数据的处理。如果我们就为了图方便,每次数据读写操作专门allocate一个比较大capacity的ByteBuffer,这样会造成不必要的JVM heap的浪费。但是如果我们转而变为多个小ByteBuffer的动态申请,又会加大ByteBuffer的管理协调 操作。...

2020-03-11 23:36:24 837

原创 Ozone BlockCommitSequenceId在Container上的运用

文章目录前言Ozone Container自增型TransactionId:BlockCommitSequenceId前言在Ozone中,Container以Pipeline节点组织的方式通过StateMachine的形式进行状态一致性的更新。不过这里面对可能存在的一些边缘情况,例如Pipeline节点的突然重启,Container目录的意外删除,我们需要有别的手段来表明Container当...

2020-03-08 23:31:22 568

原创 HDFS Missing Block诊断信息的改进

文章目录前言HDFS Block副本storage location的移除逻辑HDFS Block的last stored location的优化HDFS Missing Block lastStoredLocationd的测试前言在存储系统中,数据的安全性无疑是最top priority的事情,因此当数据发生丢失的时候,如何快速找到这些数据的位置并且快速地对他们进行恢复是最最要紧的事情。本...

2020-03-07 11:43:44 1503

原创 Ozone Datanode ContainerStateMachine语义实现

文章目录前言ContainerStateMachine对于StateMachine/RaftLog的语义实现前言上篇文章里笔者介绍了Ozone中使用的Apache Ratis的内部一致性实现原理,得益于底层的一致性封装实现,在Ozone层面,它只需要调用此库并实现自定义的StateMachine方法即可。在Ozone Datanode中,就自定义了ContainerStateMachine来...

2020-02-23 12:22:29 715

原创 Ozone内部使用的RaftLeader/RaftFollower的一致性同步机理

文章目录前言Apache Ratis基于Raft协议的一致性同步过程Apache Ratis内部RaftLeader/RaftFollower过程调用分析前言在之前的文章中,笔者提过Ozone内部使用的是基于Raft协议的一致性控制,以此保证Ozone Container操作请求在Pipeline节点上的一致性。但是这里面具体是怎么样的一个过程呢?RaftLeader/RaftFollow...

2020-02-22 12:01:12 1016

原创 Ozone FS Namespace的设计构想

文章目录前言Ozone FS Namespace综述Ozone FS Namespace的结构设计前言之前笔者介绍过Ozone如何作为Hadoop兼容性文件系统供外部应用使用,就是我们所说的Ozone FileSystem。但是Ozone FileSystem在本质上并没有改变底层Key在Ozone中的存储形式,它只是做了一个从树型结构的路径到Ozone的volume,bucket,key的...

2020-02-16 11:52:12 904

原创 从Ozone Recon到分布式系统只读模式的服务构建

文章目录前言Ozone Recon模式的运作原理总结引用前言当面对一个复杂的分布式系统时,如果我们想了解其内部运行的情况,我们通常的做法是进行内部指标metric的收集和暴露。但是如果我们遇到一些内部指标的统计需要进行系统服务内部逻辑的大规模改动或者目标metric的指标收集操作会影响到服务的正常请求处理,那么这个时候我们有没有好的办法呢?最完美的方法无疑是搭建出一个元数据完全一致的READ...

2020-02-13 23:16:05 1101 2

原创 Ozone Multi-Raft机制对于更大throughput处理量的支持

文章目录前言Multi-Raft的支持到Ozone多Pipeline的节点复用支持前言在前面介绍Ozone文章内容中,笔者多次提及Ozone使用的是Raft一致性协议来做副本间的数据一致性的。Ozone使用的是Raft的Java实现库Apache Ratis实现的,在早期Apache Ratis实现里,它需要传入一个Pipeline节点作为命令操作的对象。并且每个Pipeline之间是不能带...

2020-02-10 23:56:00 1293

原创 Ozone SCM的Container状态转化分析

文章目录前言SCM和Datanode之间的Container处理过程SCM Container的状态转化前言上一篇文章里,笔者对SCM的Pipeline的状态转化做了一定的分析。本文笔者将对SCM中另外一个重要概念Container做详细的分析。Container作为Ozone SCM提供服务的存储单元,SCM内部在Container级别进行数据的Replication,心跳汇报操作等等。这...

2020-02-08 22:47:07 930

原创 Ozone SCM的Pipeline状态转化分析

文章目录前言SCM的Pipeline处理流程SCM Pipeline的生命周期前言在前几篇讲述Ozone SCM的文章中,笔者多次提及到了Container,Pipeline的概念。Ozone SCM服务围绕着这2个概念,对外提供核心的存储服务。本文笔者将对其中的Pipeline进行更为深入的分析阐述。Pipeline在SCM中的生命周期是如何的呢?它在SCM是如何发挥作用的呢?SCM的P...

2020-02-03 22:24:00 1591

原创 Ozone FileSystem的内部原理实现分析

文章目录前言Ozone FileSystem的简单架构Hadoop FileSystem到Ozone的命名空间的转化Ozone FileSystem的“虚假”目录的处理Ozone FileSystem相关代码实现分析相关阅读前言在前一篇文章中(Ozone作为Hadoop FileSystem的配置使用),笔者介绍了Ozone作为Hadoop兼容性文件系统来使用的配置说明,也给出了简单的使用例...

2020-02-01 15:31:55 2141

原创 Ozone作为Hadoop FileSystem的配置使用

文章目录前言Ozone FileSystem的Hadoop兼容性文件系统实现原理Ozone FileSystem的配置Ozone FileSystem的使用前言Ozone作为同样隶属于Hadoop大数据生态圈的一个系统,尽管它提供的是K-V对象存储能力,但是它和其它现有的Hadoop生态圈组件之间的结合使用依然十分重要。比如说Ozone是否能够支持Hive,Spark应用程序的文件读写呢?但...

2020-01-31 14:43:52 3033 1

原创 Ozone SCM基于Container/Pipeline管理的架构模式

文章目录前言SCM内部的服务模块划分SCM服务和OM服务的交互过程前言前面笔者写了很多篇关于Ozone OM的相关文章,本文笔者介绍另外一个与此紧密管理的服务SCM服务,一个提供基于Datanode Container容器的中心管理服务。简单地来比喻,现有的HDFS NN服务的角色功能在Ozone中,被完美地拆成了OM+SCM服务的模式。而且这样拆分之后,SCM提供的Container存储服...

2020-01-29 15:39:20 1607 3

原创 Ozone Datanod Container Replication复制过程

文章目录前言Ozone Datanode Container Replication过程前言在分布式存储系统中,为了保证文件数据的冗余性,系统往往会对数据进行多副本的设置保存,比如典型的HDFS三副本文件设置。在Ozone中,同样也有副本的概念,不过它的副本单位粒度比HDFS的Block要粗一些。Ozone的是以Datanode上的Container为粒度,进行Container级别的Rep...

2020-01-27 16:52:23 985

原创 Ozone Datanode启动过程以及心跳汇报过程分析

文章目录前言Ozone Datanode的服务启动前言在之前的文章中,笔者分析过Ozone Datanode内的数据处理过程,包括Container,Chunk文件级别的操作处理逻辑。本文笔者继续阐述Datanode服务内部的另外一部分的处理过程:Datanode服务启动以及心跳发送给SCM服务的过程。了解此本部分过程,能更加地让我们了解Datanode服务的正常运行过程是怎样的。如文章标题...

2020-01-24 14:03:36 4185

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除