Yarn
Yannick_J
Yes-亚历山大的陀螺
展开
-
测试flink实时流系列(三):搭建flink节点服务器
一、在服务器节点安装及运行Hadoop安装和运行单节点Hadoop请参考:搭建Hadoop(v2.7.1)单节点伪模式, 集群(2 节点)及 集群(5 节点)这里需要运行hadoop,因为我们跑的flink on yarn模式。二、在服务器节点安装及运行flink1. 下载并解压flink软件:flink-1.0.3适配hadoop2.7和scala_2.11的flink版本下...原创 2019-12-10 16:26:25 · 287 阅读 · 0 评论 -
HDFS读数据分析(四):用Spark做计算引擎时,是否会根据HDFS数据本地性来分配Task到特定的Datanode
一、前言1. 版本:Hadoop 源码版本: Version 2.7.1二、内容Spark的DAGScheduler是否会根据RDD的Partition包含的数据本地性,来分配Task到特定的Datanode来处理?代码在哪里?代码在TaskSetManager.computeValidLocalityLevels函数里,它会赋值TaskSetManager.myLocality...原创 2019-01-30 10:24:16 · 357 阅读 · 0 评论 -
HDFS读数据分析(三):怎么样单独打开HDFS几个模块的TRACE开关?
一、前言1. 版本:Hadoop 源码版本:Version 2.7.1二、内容由于HDFS属于Hadoop应用程序管理,可以修改Hadoop/etc/hadoop/log4j.properties。如果你使用Spark做引擎,这个不影响Spark/conf/log4j.properties配置。1)单独打开HDFS几个读模块的TRACE log,在Hadoop/etc/hado...原创 2019-03-26 15:02:19 · 414 阅读 · 0 评论 -
分析 在 YARN 模式下的 Spark 里 BlockManager 的 LOCAL_DIRS
一、前言1. 版本:Hadoop 源码版本:Version 2.7.1Spark源码版本:Version 2.4.1二、分析1. Spark 里 BlockManager 的 LOCAL_DIRS在 DiskBlockManager里的成员变量 localDirs 代表了BlockManager 写磁盘的本地目录列表,该成员变量的 DiskBlockManager...原创 2019-04-02 21:55:43 · 1735 阅读 · 0 评论 -
ContainerLocalization的分析[YARN]
一、前言1. 版本:Hadoop 源码版本:Version 2.7.1二、前言Yarn的分布式缓存类似于MRv1中的DistributedCache,是一种分布式文件分发与缓存机制。Yarn的分布式缓存工作流程如下:注意,这里的分布式缓存并不是将文件缓存到集群各个节点的内存中,而是将文件缓存到各个节点的本地磁盘上;Public, Private和 Applicat...原创 2019-04-04 21:27:05 · 218 阅读 · 0 评论 -
Resource Localization in YARN: Deep Dive
Resource Localization in YARN: Deep Diveby:Vinod Kumar VavilapalliThis post is authored by Omkar Vinit Joshi with Vinod Kumar Vavilapalli and is the ninth post in the multi-part blog series onApa...转载 2019-04-08 16:36:38 · 457 阅读 · 0 评论 -
Spark Core 子模块 storage分析
一、前言1. 相关版本:Spark Master branch(2018.10, compiled-version spark-2.5.0, 设置了spark.shuffle.sort.bypassMergeThreshold 1 和 YARN-client 模式) ,HiBench-6.0 and Hadoop-2.7.12. 建议先了解Spark 的 RDD、DAG、Memory...原创 2019-01-14 10:23:02 · 622 阅读 · 1 评论 -
Hive 工作流程源码分析
1. 简介主要介绍Hive的parse enginer(包括HQL->TaskTree)Hive版本:1.2.1HiBench 版本: v6Hadoop 版本: 2.7.12. Hive 与 传统RDBMS的区别 3. Hive架构 4. Hive 源码中3个关键的部分 (version Hive-1.2.1): Hive核心三大组件 ...原创 2019-01-04 13:48:10 · 4535 阅读 · 2 评论 -
浅析HiBench之SparkBench(集群)配置
一 、前言:1. 语术:Hadoop 版本: Version 2.7.1HiBench 版本:Version 6.0Spark 版本:Version 2.1.0Scala 版本: scala-2.11.12java: jdk8集群节点:1master + 3 slaves二、搭建Spark on yarn 集群基于单节点Spark 配置 https://blog.csd...原创 2018-08-29 10:35:35 · 1566 阅读 · 1 评论 -
搭建Hadoop(v2.7.1)单节点伪模式, 集群(2 节点)及 集群(5 节点)
一 前言:目的: 熟悉一下Hadoop 集群搭建的过程, 哪怕 2 台机器也来趟一遍。通过学习集群的 log,熟悉集群的流程。为以后有条件搭建和维护上百台的集群环境(我想应该是没这个可能的),迈出一小步。二 先来熟悉一下 单节点伪模式(standalone)搭建步骤:1) 安装ssh和 rsyncsudo yum install opensshsudo yum ins...原创 2018-07-19 10:07:48 · 1045 阅读 · 0 评论 -
浅析 Spark (V2.x ) on YARN
1. --deploy-mode: yarn-client 和 --deploy-mode: yarn-cluster 都是--master yarn 模式配置下的,不同deploy而已。它们的deploy区别如下:yarn-client:yarn-cluster:2. 只需要启动的进程:start-dfs.sh, start-yarn.sh 和 start-history-server.s...原创 2018-06-25 17:57:09 · 179 阅读 · 0 评论 -
浅析CapacityScheduler调度模式下: 第一批启动map任务的container数量
一 前言:1. 语术:CS: Capacity Scheduler的简称。Hadoop 版本: Version 2.7.1相关的代码文件: LeafQueue.java, Resources.java, ResourceCalculator.java, DefaultResourceCalculator.java, DominantResourceCalculator.jav...原创 2018-04-25 18:39:48 · 822 阅读 · 0 评论