自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 2021SC@SDUSC hadoop源码分析(十三)

2021SC@SDUSC本篇我将对hadoop-tools中的最后一个内容Dynamometer进行分析概观Dynamometer是测试Hadoop HDFS命名节点性能的工具。其目的是通过针对生产文件系统映像初始化名称节点并重放通过例如名称节点的审核日志收集的生产工作负载来提供真实环境。这允许重放一个工作负载,该工作负载不仅在特性上与生产中所经历的相似,而且实际上是相同的。Dynamometer将启动一个Yarn应用程序,该应用程序启动单个名称节点和可配置数量的数据节点,将整个HDFS集群

2021-12-21 16:44:31 1218

原创 2021SC@SDUSC hadoop源码分析(十二)

2021SC@SDUSC本篇我将对hadoop-common中的Tracing进行分析Enabling Dapper-like Tracing in HadoopDapper-like Tracing in HadoopHTraceHDFS-5274增加了对通过HDFS跟踪请求的支持,使用开源跟踪库,Apache HTrace设置跟踪非常简单,但是需要对客户端代码进行一些非常小的更改。SpanReceivers跟踪系统通过在名为“跨度”的结构中收集信息来工作。您可以通过使用的实现

2021-12-13 19:54:44 1149

原创 2021SC@SDUSC hadoop源码分析(十一)

2021SC@SDUSC本篇我将对hadoop-common中的Unix Shell Guide进行分析重要的最终用户环境变量Apache Hadoop有许多控制软件各个方面的环境变量。(参见hadoop-env.sh和相关文件。)其中一些环境变量专门用于帮助最终用户管理他们的运行时。HADOOP_CLIENT_OPTS:此环境变量用于所有最终用户的非守护程序操作。它可以用于通过系统属性定义设置任何Java选项以及任何Apache Hadoop选项。例如:HADOOP_CLIENT

2021-12-06 16:48:48 1589

原创 2021SC@SDUSC hadoop源码分析(十)

2021SC@SDUSC本篇我将对hadoop-tools中的YARN Scheduler Load Simulator进行分析概观YARN Scheduler Load Simulator是一个很有价值的领域,有不同的实现,例如先进先出、容量和公平调度器。同时,还针对不同的场景和工作负载进行了一些优化,以提高调度器的性能。每个调度器算法都有自己的一组特性,并通过许多因素来驱动调度决策,例如公平性、容量保证、资源可用性等。在我们部署到生产集群之前,非常好地评估调度器算法是非常重要的。不幸的是,目

2021-12-01 18:29:34 1113

原创 2021SC@SDUSC hadoop源码分析(九)

2021SC@SDUSC本篇我将对hadoop-tools中的Resource Estimator Service进行分析Resource Estimator Service概念:原因:对企业集群来说,估算工作资源需求仍然是一个重要且具有挑战性的问题。不断增加的工作负载复杂性放大了这一点,即从传统的批处理作业到交互式查询,再到流式传输和最近的机器学习作业。这导致作业依赖于多个计算框架,如Tez、MapReduce、Spark等。,集群的共享特性进一步加剧了这个问题。当前最先进的解决方案依

2021-11-25 22:47:27 1132

原创 2021SC@SDUSC hadoop源码分析(八)

2021SC@SDUSC本篇我将对hadoop-tools中的Rumen进行分析Rumen概观Rumen是一个数据提取和分析工具Apache Hadoop。Rumenmines工作历史日志提取有意义的数据,并以易于解析、压缩的格式或摘要。来自MapReduce日志的原始跟踪数据通常不足以进行模拟、仿真和基准测试,因为这些工具通常试图测量源数据中没有出现的情况。例如,如果一个任务在原始跟踪数据中本地运行,但调度程序的模拟选择在远程机架上运行该任务,模拟器需要一个其输入无法提供的运行时。为了..

2021-11-15 21:49:59 929

原创 2021SC@SDUSC hadoop源码分析(七)

2021SC@SDUSC本篇我将对hadoop-tools中的Gridmix进行分析GridMix概念GridMix是Hadoop集群的基准。它提交多种合成作业,对从生产负载中挖掘的概要进行建模。基本使用Gridmix作为hadoop子命令提供。不带配置参数的基本命令行用法:$ hadoop gridmix [-generate <size>] [-users <users-list>] <iopath> <trace>配置参

2021-11-09 23:18:01 1211 1

原创 2021SC@SDUSC hadoop源码分析(六)

2021SC@SDUSC本次我将对tools中的DisCp Guide进行分析DistCp概念DistCp(分布式拷贝)是一种用于大型集群间/集群内拷贝的工具。它使用MapReduce来实现其分发、错误处理和恢复以及报告。它将文件和目录列表展开为映射任务的输入,每个任务将复制源列表中指定文件的一个分区。使用DistCp最常见的调用是集群间复制:bash$ hadoop distcp hdfs://nn1:8020/foo/bar \hdfs://nn2:8020/bar/fo

2021-11-07 19:06:34 171

原创 2021SC@SDUSC hadoop源码分析(五)

2021SC@SDUSC接下来一段时间我将会对hadoop中的tool部分进行分析理解Hadooop Streaminghadoop streamingHadoop流是Hadoop发行版附带的实用程序。该实用程序允许您使用任何可执行文件或脚本作为映射程序和/或缩减程序来创建和运行映射/缩减作业。例如:mapred streaming \ -input myInputDirs \ -output myOutputDir \ -mapper /bin/cat \ -redu

2021-10-31 01:26:14 73

原创 2021SC@SDUSC hadoop源码分析(四)

2021SC@SDUSC本次我将对hadoop中的common部分中Configuration最后一部分内容进行解析:addResourceObject以及若干方法实际上,在hadoop中无论使用何种addResource,最终都是调用了addResourceObject(Resource resource)的方法,这个方法会先将资源添加到一个全局的List集合中,然后调用reloadConfiguration来触发刷新properties进而使标记为final的key失效。findSubV

2021-10-20 20:25:05 108

原创 2021SC@SDUSC hadoop源码分析(三)

2021SC@SDUSC本次我将对hadoop中的common部分中Configuration第二部分内容进行解析: private static AtomicReference<DeprecationContext> deprecationContext = new AtomicReference<DeprecationContext>( new DeprecationContext(null, defaultDeprecations))

2021-10-16 16:53:43 133

原创 2021SC@SDUSC hadoop源码分析(二)

2021SC@SDUSC本次我将对hadoop中的common部分中Configuration部分进行分析首先Configuration类实现了Writable和lterable接口,使得hadoop可以遍历以及自己序列化配置相关文件格式<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <prop

2021-10-09 17:20:28 125

原创 2021SC@SDUSC hadoop源码分析(一) 项目综述

2021SC@SDUSC hadoop是一个分布式系统基础架构,它可以使用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。hadoop的框架最核心的设计就是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。在Hadoop中HDFS和MapReduce是同一个项目,Hadoop中包的依赖关系十分复杂,分布式文件系统的底层的实现,依赖于某些类似高层的功能一.下载hadoop源码并编译1.下载ha.

2021-09-30 13:29:50 121

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除