小万万的博客

大数据

ORC文件存储格式和数据写入过程

文章目录ORC 文件格式,配置参数及相关概念ORC 文件格式UML类图OrcFile writer 创建OrcFile Writer 配置参数相关概念动态数组 DynamicIntArray 和 DynamicByteArray初始化chunk 扩容OrcFile writer的 write()方...

2019-05-16 18:05:54

阅读数 4

评论数 0

StandBy NameNode 合并并回传FSImage

文章目录启动StandbyCheckpointerdoCheckpointsave FSImage文件启动独立线程,SNN 向NN PUT FSImageImageServlet 接收 FSImage 启动StandbyCheckpointer // 接上篇 StandbyState public...

2019-05-09 20:33:14

阅读数 13

评论数 0

Hadoop HDFS HA 状态切换源码

文章目录NameNode启动进入StandBy StateZKFC 进程监控和切换 NameNode HA State启动 HDFS ZKFC 服务启动 HealthMonitor服务NameNodeRpcServerdoHealthChecks()ActiveStandbyElector 和 A...

2019-05-09 20:13:09

阅读数 28

评论数 0

HDFS NAMENODE QJM HA方案实现-1

文章目录JournalNodeQJM 方案对象实现过程确定 EditsDirs实例 FSImage 和 FSEditLogNameNode服务启动和journalSet 实例初始化journalSet 初始化JournalManager / QuorumJournalManager 初始化Asyn...

2019-05-08 19:06:12

阅读数 8

评论数 0

Hadoop Metrics2实现原理

Hadoop Metrics2的实现应该是在14年左右就已经非常成熟了,研究的人也比较多了。一个出现很久的东西,并非没有学习价值。如Metrics2 和之前的Metrics 一代做了哪些改进?如果我们自己设计一套Metrics信息,哪些是可以借鉴的地方? 所有Source 和Sink全部是可配置...

2019-05-03 22:14:42

阅读数 14

评论数 0

Spark是如何实现远程Thread Dump 的?

问题研究入口还是从web页面ExecutorThreadDumpPage入手,提供ThreadDump的入口在SparkContext的getExecutorThreadDump方法。 // 1. 查看Executor Thread页面入口,通过 executorId 获取ThreadDump, ...

2019-05-03 22:04:18

阅读数 3

评论数 0

Spark Metrics实现原理

Spark 任务的Metrics 是通过Spark中的accumulator来辅助实现的。 accumulator 定义 // 1.1 定义 accumulator来收集 task 运行统计信息,包括 runTime,cpuTime,GCTime等 class TaskMetrics priva...

2019-05-03 21:53:18

阅读数 10

评论数 0

Linux DevOps

grafana 搭建 软件下载和安装 https://grafana.com/grafana/download?platform=linux wget https://dl.grafana.com/oss/release/grafana-6.1.3-1.x86_64.rpm sudo ...

2019-04-18 12:43:25

阅读数 11

评论数 0

Spark Scan大表时任务启动过慢分析

问题背景 测试SQL select asset_inout_ex['asset_inout_1c_sum_1'],dt from ASSET_INOUT_AMT a where dt<20181119 and cust_code=0000000 order by d...

2019-03-13 18:37:12

阅读数 519

评论数 2

Spark SQL 学习比较-1

ParallelCollectionRDD 到 DataFrame 生成步骤 通过 spark.sparkContext.parallelize(Seq) 创建 ParallelCollectionRDD 通过 implicit 方法 rddToDatasetHolder(),进入_sqlCon...

2019-02-27 20:39:05

阅读数 29

评论数 0

Spark CBO

HIVE 0.14 Cost Based Optimizer (CBO) Technical Overview CBO 三个优化效果 Join ordering optimization Bushy join support Join simplification Equi-depth His...

2019-02-12 11:39:45

阅读数 72

评论数 0

A Deep Dive into Spark SQL's Catalyst Optimizer with Yin Huai

A Deep Dive into Spark SQL’s Catalyst Optimizer with Yin Huai Two kind Query Plan Logical Plan Physical Plan Two kind Transformations

2019-02-01 16:08:15

阅读数 35

评论数 0

honest-profiler编译测试

yum remove automake autoconf cppunit-devel libtool wget http://ftp.gnu.org/gnu/autoconf/autoconf-2.69.tar.gz tar -zxvf autoconf-2.69.tar.gz cd aut...

2019-01-22 09:18:00

阅读数 46

评论数 0

Spark kryo Jar包冲突问题排查

错误日志 Exception in thread "adaptive-query-stage-0" java.lang.NoSuchMethodError: com.esotericsoftware.kryo.Kryo.setInstantiatorStrate...

2019-01-16 15:37:29

阅读数 238

评论数 0

spark AE 编译

安装R 安装包及其依赖类库 安装R语言环境 安装R类库 R -e “install.packages(c(‘knitr’, ‘rmarkdown’, ‘devtools’, ‘e1071’, ‘survival’), repos=‘http://cran.us.r-project.org’)...

2018-12-13 16:43:29

阅读数 104

评论数 0

hadoop namenode 本地调试环境搭建

本地环境配置 核心是增加namenode启动调试参数 export HADOOP_NAMENODE_OPTS="${HADOOP_NAMENODE_OPTS} -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,add...

2018-11-13 00:42:14

阅读数 26

评论数 0

HDFS CheckSum

程序入口 Hadoop Branch : Hadoop-2.6.0 使用样例 : hadoop dfs -checksum /tmp/README.txt 结果 /tmp/README.txt MD5-of-0MD5-of-512CRC32C 00000200000000000...

2018-09-24 22:52:31

阅读数 225

评论数 0

Hive Group By 实现

GroupByOperator 代码走读 在ExecReducer中会调用 reducer.startGroup();和reducer.endGroup();,这两个方法会递归调用到GroupByOperator中,用于设置firstRowInGroup = true和keysCurrentGr...

2018-09-11 20:57:19

阅读数 352

评论数 0

ElasticSearch5 插件安装

1 cerebro 插件 wget https://github.com/lmenezes/cerebro/releases/download/v0.8.0/cerebro-0.8.0.tgz 修改配置文件,只需要修改host添加当前其中一台elasticsearch地址,然后名字即可 v...

2018-09-04 15:38:30

阅读数 43

评论数 0

【转载】Yarn 源码解析

Hadoop源码解析之ApplicationMaster启动流程 YARN ApplicationMaster与ResourceManager之间基于applicationmaster_protocol.proto协议的allocate()接口源码解析 Hadoop 基于protobuf 的R...

2018-07-27 10:01:36

阅读数 215

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭