- 博客(16)
- 资源 (3)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 【资源调度总纲】Yarn源码剖析(零) --- spark任务提交到yarn的流程
前言本系列的目的在于试图剖析spark任务提交至hadoop yarn上的整个过程,从yarn的启动,以及spark-submit提交任务到yarn上,和在yarn中启动任务包括yarn组件之间的通信,用以提升自身知识储备,记录学习的过程为目的,由于个人能力有限文章中或许有理解不到位的地方,敬请谅解。本系列侧重的部分是yarn相关的部分,所以在spark-submit代码剖析阶段会缺少与spa...
2018-07-31 20:56:20
2050
原创 一致性哈希
一致性哈希近期无意接触到了一致性哈希的内容,所以作为学习,整合了网上资料加入了个人理解,学习了有关一致性哈希的内容演变历史 最初当我们往集群里存入数据时,数据会插入到任意一台机器上。那查询时,就需要遍历每一台机器才能查询到我们需要的数据。这样的效率就会相对低下 于是为了改善这种情况,就采取了哈希的方式,针对数据进行哈希计算后,再对机器数取余数,那么就可以得到这条数据需要存储...
2019-11-20 21:43:54
166
1
原创 hbck
Apache HBase HBCK2 ToolHBCK2是hbase-1.x修复工具( 也称作hbck1)的继承者。 使用它代替hbck1进行hbase-2.x安装修复。hbck1不应该对hbase-2.x群集运行hbase-1.x附带的hbck工具( hbck1)。 它可能会造成损坏。 虽然hbck1仍然捆绑在hbase-2.x--中以最大限度地减少意外(它在其输出的帮助有一个指向H...
2019-05-13 17:52:43
978
原创 Zookeeper
Zookeeper前言前段时间,被问到过Zookeeper的相关问题,蛋挞一筹莫展,所以在工作之余整理了Zookeeper的一些基本知识已作知识储备的提升。下面是个人在学习Zookeeper过程中整理的思维导图,此篇基础也是围绕这个思维导图展开的。许多概念性整理大多来自书籍和网络,在这里感谢许多大神博主的分享。标题什么是Zookeeper官宣概念:Zookeeper是一个高性...
2019-02-18 12:06:39
253
原创 Hbase offHeap(堆外内存)测试
Hbase offHeap(堆外内存)测试blockcache是hbase中的读缓存,其主要组成包括LruCache和bucketCache,LruCache使用堆内内存,BucketCache使用堆外内存。本文是想对比hbase只用堆内内存作为读缓存(即只用LruCache)以及尝试配置BucketCache。以观察是否可以来减少GC,提高集群性能。一、配置使用两台同等规格的服务器,...
2018-12-12 21:49:51
2583
原创 Thrift基本原理以及使用介绍
Thrift初识ThriftThrift是一个跨语言通信的RPC软件,最初是由FaceBook开发的,现在是Apache的一个顶级项目。Thrift概念:Thrift 最初是由 Facebook 开发用做系统内各语言之间的 RPC 通信的一个可扩展且跨语言的软件框架,它结合了功能强大的软件堆栈和代码生成引擎,允许定义一个简单的定义文件中的数据类型和服务接口,以作为输入文件,编译器生...
2018-11-28 21:52:52
2212
1
原创 Hadoop原理简介
HadoopHadoop其实是一个较大的概念,它像是一个巨大的框架,里面由多个组件去构架而成。我想从三个部分,也是我认为Hadoop最重要的三个组件hdfs、yarn、Hbase来介绍我所了解的Hadoop 。下文我将介绍这三个组件的构架以及基本的运作原理,HDFS 这个图是从hdfs官网摘下来的,这个图很好的演示了hdfs的架构和数据读写原理。下面将简述一下hdfs的写原理:...
2018-11-12 21:57:16
992
原创 Hadoop -- RPC通信
Hadoop -- RPC通信前言本篇文章浅显的介绍了Hadoop RPC的基础以及三个大类RPC、Server、Client一些较为重要的方法的源码剖析,目的在于理解Hadoop RPC核心的原理以提升自身知识储备。本篇博文参考了大量董西成老师的《Hadoop技术内幕-深入解析YARN架构设计与实现原理》,感谢老师的书籍在我学习Hadoop Yarn过程中给予的莫大帮助。基础库1...
2018-10-21 21:02:39
752
原创 Yarn -- HA源码剖析
HA简介HA(High Available),高可用性集群,是保证单点故障问题(指单点故障会引起系统整体故障的问题)的有效解决方案,一般有两个或两个以上的节点,且分为活动节点(active)及备用(standby)节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务,保证集群的稳定性。Yarn HA -- 集群的初始化...
2018-10-07 15:56:19
602
1
原创 Yarn源码剖析(四)-- AM的注册与资源调度申请Container及启动
AM注册到RM1. 从Yarn源码剖析(三)-- ApplicationMaster的启动可知提交应用程序至yarn时最后启动了ApplicationMaster类,所以我们直接来看这个类(是spark自己封装的AM)的main方法,可以看到spark是通过调用AMRMClient客户端来调用相关API来实现AM注册的,以及资源的调度。amClient = AMRMClient.crea...
2018-09-05 22:21:32
2289
原创 Yarn源码剖析(三)--- ApplicationMaster的启动
前言在上文Yarn源码剖析(二) --- spark-submit,我们介绍了spark任务通过spark-submit提交任务至yarn申请资源至启动的全流程,本篇将介绍启动过程中ApplicationMaster(后文简称AM)是如何启动。AM的启动与Container的申请1. 在Yarn源码剖析(二)中yarnClient最终调用submitApplication方法提交任务,...
2018-08-28 20:34:17
7085
1
原创 Yarn源码剖析(二) --- spark-submit
spark-submit前言上文Yarn源码剖析(一) --- RM与NM服务启动以及心跳通信介绍了yarn是如何启动的,本文将介绍在yarn正常启动后,任务是如何通过spark-submit提交到yarn上的。spark-submit脚本1. 先来观察一下任务提交时的spark-submit脚本中各个参数的含义(并没列举所有,只列举了关键的几个参数)/spark/bin/s...
2018-08-10 21:15:35
1985
3
原创 Yarn源码剖析(一) --- RM与NM服务启动以及心跳通信
前言在Yarn源码剖析(零) --- spark任务提交到yarn的流程中介绍了Yarn任务提交的流程,按照此篇的阅读指导,该篇文章将会介绍Yarn中ResourceManager、NodeManager的启动,以及两者之间的心跳通信。Yarn的启动1. 对于任务的yarn服务的启动当然要从它的启动脚本start-yarn.sh中进行分析,可以看到分别执行了yarn-daemon.sh...
2018-08-05 18:30:26
2737
原创 Yarn组件简介
Yarn基础介绍Ps:在博文开始前,需要说明的是该篇文章有部分的内容和图片摘自网上一些博主的博客,若有冒犯请知会我删除该部分内容,也感谢这些博主的博客给我在学习yarn组件时给予的莫大帮助。一、Yarn的发展史1) MRv1引入JobTracker、TaskTracker的概念:A:JobTracker:一个管理者,接受来自TaskTracker的心跳,负责资源管理和job的调度...
2018-07-30 23:09:32
2214
原创 惶惑
这一刻,其实并不纯粹。最近有许多的朋友、同事都离开了,让我有些惶惑,有些焦虑...有人和我说,要真正的认清你想要做什么,有的人为了唾手可得的利益,有的人为了远大的梦想。在这个浮躁的世界,每个人都很浮躁,真的和难得能再沉下心来写这样一篇“羞耻”的文章。想起了高中时代,还没有那些智能的软硬件,只有小小的日记本来记录一些琐碎,那时我当它是朋友,我总会喊它一声蛋挞,此刻也决定了,用蛋挞这个...
2018-07-30 22:38:07
263
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人