hadoop
文章平均质量分 89
迷路剑客
弱小和无知不是生存的障碍,傲慢才是。
展开
-
HDFS租约与Flink StreamingFileSink
1 概述HDFS文件的特点是一次写多次读并且不支持客户端的并行写操作,hdfs采用租约机制来保证对文件的互斥操作。某个DFSClient打开文件流时,该DFSClient即为租约持有者(LeaseHolder),租约由NameNode发放。租约就是在规定时间内拥有写文件权限的许可凭证,HDFS提供Lease机制来保证写入数据的一致性。也就是说,租约是HDFS给予客户端的一个写...原创 2020-03-14 15:04:27 · 1391 阅读 · 0 评论 -
大数据-常用压缩方式总结
转载声明本文系转载自以下两篇文章:压缩格式gzip/snappy/lzo/bzip2 比较与总结作者: zzhongcySnappy、Lzo、Gzip、Bzip2比较作者: 心有余力转载仅为方便学习查看,一切权利属于原作者,本人只是做了整理和排版,如果带来不便请联系我删除。摘要本文对大数据常用的压缩方式GZip, BZip2, LZO, Snappy进行对比。特性对比...转载 2019-09-06 13:33:41 · 1828 阅读 · 0 评论 -
Hadoop-Yarn学习
Yarn学习0x01 概述Yarn全名Yet Another Resource Negotiator,即资源协调/管理者,在Hadoop2中引入。1.1 Yarn是什么Yarn,英文全名是 Yet Another Resource Negotiator,是由雅虎开发的第二代集群资源调度器。查看论文点这里。Yarn在大数据体系中的示意图如下:而应用层在Application层之上,如Hi...原创 2019-05-28 23:10:46 · 1790 阅读 · 2 评论 -
Hadoop-Yarn调优
Yarn-调优0x01 概述1.1 官方文档首先给出一个Apache-Hadoop官方写的关于yarn-site.xml的配置项说明地址:yarn-default.xmlHortonworks Documentation9. Determine HDP Memory Configuration Settings1.2 内存和CPU的资源隔离方案YARN对内存资源和CPU资...原创 2019-04-30 21:44:35 · 479 阅读 · 0 评论 -
Hadoop-MapReduce学习
Hadoop-MapReduce学习摘要本文简要将就爱你过MapReduce,重点是Shuffle部分0x01 MapReduce-Mapper侧1.1 简介以上是一张Hadoop官方创作的MR过程图示。我们以大数据届的HelloWorld-WordCount为例讲述下MR过程。1.2 Split-分片1.2.1 Split简述Map阶段的输入通常是HDFS上文件。在运行Ma...原创 2019-01-24 21:14:15 · 1358 阅读 · 1 评论 -
Hadoop-HDFS学习
HDFS学习0x01 摘要本文介绍了Hadoop体系中最重要的HDFS原理。0x02 Hadoop的整体框架Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成,其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS(Hadoop Distributed File System)来执行MapReduce程序的MapReduce引...原创 2019-01-16 22:56:19 · 3533 阅读 · 0 评论 -
Hadoop Streaming介绍
Hadoop Streaming介绍0x01 基础概念1.1 简介用户可以使用Hadoop Streaming来用任意语言(如python)来编写、运行MR作业,下面是一个官方示例:$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myO...原创 2018-09-27 00:37:00 · 5530 阅读 · 0 评论 -
源码走读-Yarn-ResourceManager01-基础概念
0x01 基础概念Yarn作为一款热度颇高的开源资源调度器,对他的源码分析有助于大家理解其内部执行机制。本文基于2.6.0-cdh5.8.2,仅供参考。 第一章我们先了解下Yarn的一些基本概念,读完这一章可以了解Yarn的基本的框架和流程,以便更快更好的阅读理解后面章节。1.1 Yarn是什么Yarn,英文全名是 Yet Another Resource Negotiator,...原创 2018-09-14 17:58:30 · 1650 阅读 · 0 评论 -
源码走读-Yarn-ResourceManager08-总结
0xFD 单元测试下面说下调试的时候的一些单元测试: hadoop-2.6.0-cdh5.8.2/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/src/test/java/org/apache/hadoop/yarn/server/resourcemanager/sc...原创 2018-09-13 00:13:03 · 400 阅读 · 0 评论 -
源码走读-Yarn-ResourceManager07-ShutdownHookManager
0x07 ShutdownHookManager在yarn代码中可以看到很多地方都使用了以下代码来添加自己的ShutdownHook:ShutdownHookManager.get().addShutdownHook( new CompositeServiceShutdownHook(resourceManager), SHUTDOWN_HOOK...原创 2018-09-13 00:08:17 · 504 阅读 · 0 评论 -
源码走读-Yarn-ResourceManager06-MR任务提交-服务端分析
0x06 RM调度-MR任务提交-服务端分析上文我们提到过,Yarn中Client和RM交互的协议是ApplicationClientProtocol,我们已经分析过这一协议在客户端的实现ApplicationClientProtocolPBClientImpl,这一章节我们就从分析这一协议服务端的实现ClientRMService开始。6.1 获取JobID6.2.1 Clien...原创 2018-09-12 22:52:17 · 1210 阅读 · 0 评论 -
源码走读-Yarn-ResourceManager05-MR任务提交-客户端侧分析
0x05 RM调度-MR任务提交-客户端侧分析5.1 mapreduce.joborg.apache.hadoop.mapreduce.Job我们都知道,MR任务的一般结尾会有一句话是job.waitForCompletion(true),这行代码意思是提交任务并等待结束。我们的分析就从这里入手:public boolean waitForCompletion(boolean ...原创 2018-09-12 22:50:50 · 948 阅读 · 0 评论 -
源码走读-Yarn-ResourceManager04-RM调度之FairScheduler
0x04 RM调度之FairSchedulerRM对NM的调度分为心跳触发调度和持续调度,我们先从心跳调度开始讲。因为本文的主题是讲RM,这里就不讲NM启动过程了,放在另一篇文章里分析。我们直接从AsyncDispatcher讲起。4.1 AsyncDispatcherAsyncDispatcher的内部类GenericEventHandler会处理一个EventType: NODE_...原创 2018-09-12 22:47:13 · 579 阅读 · 0 评论 -
源码走读-Yarn-ResourceManager03-RM的启动之RM详解
0x03 RM的启动之RM详解3.1 ResourceManager的继承关系3.1.1 ResourceManager第一印象我们先来看看这个类:/** * The ResourceManager is the main class that is a set of components. * "I am the ResourceManager. All your r...原创 2018-09-12 22:45:06 · 1578 阅读 · 5 评论 -
源码走读-Yarn-ResourceManager02-RM的启动-脚本
0x01 摘要Yarn作为一款热度颇高的开源资源调度器,对他的源码分析有助于理解其内部执行机制。本文基于2.6.0-cdh5.8.2,仅供参考。 0x02 RM启动过程-Shell脚本2.1 RM启动命令启动RM命令为yarn-daemon.sh start resourcemanager使用的脚本文件如下: hadoop-2.6.0-cdh5.8.2/ha...原创 2018-09-12 22:37:14 · 697 阅读 · 0 评论