Hadoop Common
文章平均质量分 87
Android路上的人
开源社区爱好者, Apache Hadoop PMC & Apache Ozone PMC, 专注于分布式存储领域, 大数据方面的研究
展开
-
Hadoop Common 结构学习
从今天开始,开始研究学习Hadoop Common相关的源码结构。Hadoop Common在Hadoop1.0中是在core包下面的。此包下面的内容供HDFS和MapReduce公用,所以作用还是非常大的。Hadoop Common模块下的内容是比较多的。本人打算在后面的学习中挑选部分模块进行分析学习,比如他的序列化框架的实现,RPC的实现等等。我对此模块截出了一些图:原创 2014-11-29 08:31:26 · 8177 阅读 · 2 评论 -
HDFS精华文章汇总
前言自2015年下半年起,笔者开始写关于Hadoop的文章(主要集中在HDFS),包括源码分析类的,问题分析解决又或者是内部机制剖析。这些文章目前汇总数量已经达到70+篇。这些文章对于笔者来说是一个宝贵的资料,这些文章见证了笔者从一名Hadoop贡献者成长为Hadoop Committer的过程。同样笔者相信,这些文章对于那些对HDFS感兴趣的人同样是很好的学习资料。因此,笔者觉得是时候写一篇文章来原创 2017-12-03 11:45:14 · 6967 阅读 · 2 评论 -
从Hadoop 安全机制原理到当今主流安全机制
在Hadoop Common模块中除了之前我所分析过的4大主模块,还有一个也同样是非常重要的内容,就是Security---安全模块。不过,我只是简单的分析他的实现机制,并不会涉及代码的分析。同时,我会通过对于Hadoop中采取的安全机制方法延伸到当下主流的一些安全认证方法,比如LDAP,SSL,Oauth Token等等。、1)Hadoop SecurityHadoop的Security原创 2014-12-13 09:10:59 · 7400 阅读 · 0 评论 -
Hadoop FileSystem文件系统的概要学习
在学习Hadoop FileSystem模块之前,最好的建议就是先去学习一下Linux本地文件系统的设计实现,这将会大大的帮助你了解Hadoop FileSystem,至少很多思想都是共通的。其实老实说,Hadoop FileSystem的确是集成了很多文件系统的诸多优点,在设计上还是有非常多值得学习的地方的。这里说的FileSystem可不是就仅仅的是HDFS,HDFS只是他的一个实现。也就是F原创 2014-12-11 10:01:23 · 5142 阅读 · 0 评论 -
Hadoop RPC通信Server端的流程分析
前2天刚刚小小的分析下Client端的流程,走的还是比较通顺的,但是RPC的服务端就显然没有那么简单了,毕竟C-S这种模式的,压力和重点都是放在Server端的,所以我也只能做个大概的分析,因为里面细节的东西太多,我也不可能理清所有细节,但是我会集合源代码把主要的流程理理清。如果读者想进一步学习的话,可自行查阅源码。 Server服务端和Client客户端在某些变量的定义上原创 2014-12-07 09:27:00 · 3211 阅读 · 0 评论 -
Hadoop RPC通信Client客户端的流程分析
Hadoop的RPC的通信与其他系统的RPC通信不太一样,作者针对Hadoop的使用特点,专门的设计了一套RPC框架,这套框架个人感觉还是有点小复杂的。所以我打算分成Client客户端和Server服务端2个模块做分析。如果你对RPC的整套流程已经非常了解的前提下,对于Hadoop的RPC,你也一定可以非常迅速的了解的。OK,下面切入正题。 Hadoop的RPC的相关代码原创 2014-12-05 18:47:36 · 4492 阅读 · 3 评论 -
Hadoop Compression解压缩架构的学习
Hadoop的Compressor解压缩模块是Hadoop Common IO模块中又一大的模块。虽然说在现实生活中,我们使用压缩工具等的使用场景并不是那么多。或许在我们潜在的意识里,压缩的概念就停留在一些压缩种类上,zip,gzip,bizp等等不同类型的压缩,分别具有不同的压缩比,效率比等等。也许当你看完本篇本人对于Hadoop的压缩框架的学习之后,你一定会有所收获。 压原创 2014-12-01 14:25:00 · 3527 阅读 · 0 评论 -
Hadoop Configuration配置类的分析
学习Hadoop Common模块,当然应该是从最简单,最基础的模块学习最好,所以我挑选了其中的conf配置模块进行学习。整体的类结构非常简单。只要继承了Configurable接口,一般表明就是可配置的,可以执行相应的配置操作,但是配置的集中操作的体现是在Configuration这个类中。这个类中定义了很多的集合变量:/** * List of configuration原创 2014-11-29 20:51:09 · 5310 阅读 · 2 评论 -
从Hadoop Writable序列化框架到java的序列化原理
继上一个模块之后,此次分析的内容是来到了Hadoop IO相关的模块了,IO系统的模块可谓是一个比较大的模块,在Hadoop Common中的io,主要包括2个大的子模块构成,1个是以Writable接口为主的序列化模块,还有1个是解压缩模块,所以打算分成2个模块做分析,今天来说说序列化,反序列化的分析学习,当然不只是简单的wrtite,read等的简单调度。在分析之前,看下IO包的类包含图:原创 2014-11-30 20:01:35 · 2973 阅读 · 0 评论 -
Hadoop公平调度队列FairCallQueue的优化设想
文章目录前言优化点一: FairCallQueue对于不同RPC Cost的度量优化优化点二: FairCallQueue下的资源预留支持引用前言Hadoop在早期实现了一种公平调度队列取代统一大队列的模式,以此解决Hadoop RPC的拥塞控制问题。简单来理解就是防止个别“不良”用户发起的大量的RPC请求堵住正常用户的请求处理(这部分细节内容可查阅笔者之前写的相关文章)。但是从后面用户对新的...原创 2019-04-07 23:52:16 · 2554 阅读 · 10 评论