走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

聊聊Hadoop安全认证体系:Delegation Token和Block Access Token

前言 本文继续上一篇Hadoop安全认证方面的内容主题,来简单聊聊Hadoop内部的其它认证体系:Delegation Token(授权令牌认证)和Block Access Token(块访问认证)。主要来聊聊这两者间的差异,顺带也会提及一些Kerberos认证的一点内容。这里不深挖其中的技...

2018-11-29 23:15:59

阅读数:828

评论数:0

Hadoop基于Service级别的认证机制

前言 最近在学习Hadoop Security方面的内容,但注意了,本文今天不是介绍Kerberos认证机制的。今天分享一个Service Level的认证机制,可以说它是一种预先认证行为,比我们常说的HDFS权限验证等等都要更早一些。一句话简单地来讲,它是Service/Service,S...

2018-11-24 23:23:05

阅读数:450

评论数:0

Hadoop Rolling Upgrade经验总结

前言 从去年下半年开始,组内就开始着手准备升级公司内部的Hadoop集群,由于老版本实在已经落后社区很多了,也陆续碰到很多社区上已经被fix的bug。所以决定做一个大胆的举动:升级公司内部大集群版本。像这种比较aggressive的做法,很多人不是一开始能够接受,它存在不可控的风险。但所幸,...

2018-10-28 11:48:00

阅读数:145

评论数:0

HDFS支持外部存储

前言 在HDFS的使用过程中,有的时候我们会存在依赖外部数据读取的操作。首先,HDFS集群的数据存在容量问题,随着数据量上升,需要的存储空间必然要往上走。那么这个时候,是否我们能够有一种方式把部分数据存放到外部存储上呢。这样,我们将会在一定程度上增多HDFS的使用场景,比如空间能节省出来,还...

2018-10-03 22:44:09

阅读数:169

评论数:0

YARN Container的NUMA感知支持

前言

2018-09-16 23:31:54

阅读数:143

评论数:0

YARN的约束化标签支持

前言 在比较早期的时候,YARN就已经实现了具有分片功能的node label功能,以此确保应用资源的使用隔离。我们可以理解为这种标签是单一维度的,假设我们有多维度标签使用的需求时,这种node label就不是那么好用了。当然,你可以说,我们可以构建多个标签,一个节点同时赋予多个维度标签,...

2018-09-12 22:57:44

阅读数:145

评论数:1

YARN基于IO资源的隔离调度

前言 众所周知,目前YARN所支持的资源类型主要有2两大类:内存和CPU.但是其实对于操作系统层面,还有一个重要的资源是没有被YARN考虑在内的,就是IO资源,这里的IO资源你可以理解为比如说存储空间的容量,但是它其实也可以有其它的含义。目前YARN这种不考虑IO资源状况的调度方式,会造成有...

2018-08-28 13:30:31

阅读数:320

评论数:0

Yarn支持队列内多优先级应用调度

前言 在上篇文章中,笔者刚刚阐述过Yarn队列的多优先级调度策略,不同的队列分配不同的优先级等级,这样提交到优先级高的队列上的应用能被优先被处理。但是又一个问题来了,如果我们又想在同一个队列内,对应用的优先级再次进行划分呢?而不是按照纯粹提交时间来进行先后顺序调度。答案是可行的,本文笔者来简...

2018-08-23 00:22:15

阅读数:180

评论数:0

基于Hadoop YARN之上的PaaS构想

前言 在Hadoop YARN发展早期,社区曾经讨论过在YARN之上提供Paas服务。当时业界已经有很多企业提供付费模式的Paas服务,作为当时已经被大量使用在公司企业内部的Hadoop系统,自然我们可以提出这样一个大胆的想法;为什么不可以在YARN之上构建Paas云服务呢?不过遗憾的是,这...

2018-08-19 10:49:07

阅读数:249

评论数:0

YARN队列优先级分配策略

前言 在YARN早期的队列分配策略中,系统采用的是相对直接简单的办法:按照相对使用率选择。简单地来说,就是选择相对使用率最低的队列,然后把应用提交那个队列上。但是这种简单直接的做法,有的时候也会暴露出它的弊端。本文笔者来聊聊这个话题以及对应的一个优化分配策略。 按相对使用率分配策略的弊端 ...

2018-08-13 22:54:28

阅读数:791

评论数:0

HDFS FoldedTreeSet的引入以及FBR优化处理

前言 在现有HDFS处理FBR(全量块汇报)逻辑中,处理开销是比较高的,尤其当集群中有大量块的时候。对此,社区在HDFS-9260中提出了一种新的树型结构来优化这块的处理。它本质上是一种排序好的Set集合,名为FoldedTreeSet。 FoldedTreeSet的作用 社区在实现...

2018-06-17 15:34:48

阅读数:509

评论数:0

HDFS SBN实现与ANN的一致性读

前言 众所周知,HDFS在启用HA模式下时,会有一个ANN(Active NameNode),以及一个SNN(Standby NameNode)。它们之间在通过QJM机制实现元数据的信息同步,简单的来说就是ANN将改动的元数据消息记录(editlog)写到JNN(JournalNode)上,...

2018-05-30 11:31:30

阅读数:538

评论数:2

HDFS文件目录list操作加速优化

前言 在我们使用HDFS作为数据存储文件系统时,恐怕最常使用到的命令就是ls命令了。我们往往先使用这个命令查找出目前我们期待的文件目录信息,然后对查出的这些文件目录做后续的操作。所以说,list操作的执行效率高低对用户以及上层应用层调用程序来说就显得十分重要了。 当前List操作的问题 ...

2018-05-25 16:27:10

阅读数:835

评论数:0

简单聊聊HDFS RBF第二阶段工作近期的一些进展

前言 前些时间Apache Hadoop 3.1.0版本正式发布,里面新增了很多feature以及一些bug fix,improvement改进。因为笔者本人最近几个月一直跟进,参与的是HDFS RBF这块,所以就简单聊聊这块所做的一些事情,旨在帮助大家方便了解这个feature具体做什么的...

2018-05-05 21:57:09

阅读数:441

评论数:0

AWS S3存储基于Hadoop之上的一致性保证

前言 Hadoop发展至今,它所涵盖的周边生态圈已经非常庞大了。但是作为一套目前看来如此成熟的系统,免不了要做一些兼容性的事情,比如一些第三方服务类型的系统。毕竟有些用户会使用到第三方的系统,但又不想去改变现有程序运行的模式以及学习第三方系统的成本。Hadoop作为一个如此成熟的项目,在兼容...

2018-04-14 11:40:44

阅读数:787

评论数:0

HDFS RBF支持多目标集群的挂载映射

前言 在RBF出现之前的ViewFS还是现在发布的RBF,目前支持的映射模式都是1对1的。什么意思呢?就是一个虚拟路径地址对一个实际集群地址。这种方式会有个弊端,如果写入的数据量很大,那么这个集群会出现容量用完的情况。针对这种潜在的“大路径”,其实我们可以希望他的目标集群地址可以有多个。这样...

2018-03-18 15:31:03

阅读数:389

评论数:0

现阶段为什么国内程序员无法很好的参与到开源社区?

前言 早在2年多前,笔者曾写过一篇关于如何参与到开源社区的文章:作为一名非Committer,如何向开源社区提交自己的代码,但是现在笔者重新阅读这篇文章,发现与其讲述的参与开源的方法论,还不如帮大家仔细分析其内在本质的一些现象和原因,核心问题:为什么国内程序员无法很好的参与进开源社区?笔者在...

2018-03-03 11:53:19

阅读数:707

评论数:2

HDFS QJM原理分析

前言 最近在重新研读HDFS QJM的细节实现,所谓“温故而知新”,感觉还是收获不少。之前笔者曾简单地翻译过HDFS QJM的设计文档,感兴趣的同学可以点此链接:HDFS QJM的架构设计。本文笔者打算挑选其中的一些细节要点,进程阐述。 背景 在HDFS QJM出现之前,edit...

2018-02-19 21:04:17

阅读数:764

评论数:0

HDFS未来底层存储架构的演变趋势

前言 经常关注笔者博客的朋友们,一定看过笔者之前写过的关于HDFS对象存储(Ozone)系列的文章,并且笔者曾经预言这个功能很快将要发布在最新的Hadoop社区版本中。但是在合并此功能分支代码时,社区内部展开了很多讨论:包括内部全新的存储结构设计,以及新结构会对现有HDFS结构造成何种影响。...

2018-02-11 11:39:02

阅读数:607

评论数:0

聊聊HDFS RBF第二阶段的主要改进

前言 HDFS RBF特性(基于路由的Federation解决方案)已经在Apache Hadoop 3.0.0中正式发布了,此特性的发布将会大大方便于广大用户多于多集群的使用。另一方面来说,面对往后日益扩展,日益多样化的环境,单一,同构化的集群运行模式,不会是一个一劳永逸的方式了,异构,多...

2018-02-03 21:37:03

阅读数:429

评论数:0

提示
确定要删除当前文章?
取消 删除