自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

coderlaw's study

学习成长,总结反思。

原创 Spark性能调优系列目录

Spark性能调优系列目录:普通调优 性能调优之在实际项目中分配更多的资源 性能调优之在实际项目中调节并行度 性能调优之在实际项目中,重构RDD架构以及RDD持久化 性能调优之在实际项目中广播大变量 性能调优之在实际项目中使用Kryo序列化 性能调优之在实际项目中,使用fastutil优化数据格式...

2016-09-19 16:06:09 675 0

原创 carbondata2.0.1初体验

一、更方便的部署配置模式 只需要增加一个conf 即可,不再需要配置carbon的storepath spark-shell --conf spark.sql.extensions=org.apache.spark.sql.CarbonExtensions --jars /Users/hulb/...

2020-06-04 14:16:21 110 0

原创 Alluxio、Presto 集成Kerberos

一、Kerberos安装与配置 kerberos简介: Kerberos 是一个安全的网络认证协议,支持客户端和服务端不需要在网络上传输密码就可以进行认证。Kerberos 采用通过对称加密算法生成时间敏感的票据。 在安全范式中Kerberos 的三个脑袋是指: 尝试认证的用户是谁。 客户端要认证...

2019-11-30 16:41:55 244 0

原创 ConcurrentHashMap的putVal

/* putVal(K key, V value, boolean onlyIfAbsent)方法干的工作如下: 1、检查key/value是否为空,如果为空,则抛异常,否则进行2 2、进入for死循环,进行3 3、检查table是否初始化了,如果没有,则调用initTable()进行初始化然后进...

2019-09-26 15:02:40 168 0

原创 Flink中的一些概念区分

1.各个执行Graph 2.JobManager和JobMaster 3.Task?Slot?StreamTask? 4.Checkpoint? 5.BarrierBuffer和BarrierTracker? 1.图生成 StreamGraph ​ JobGraph: StreamingJobGr...

2019-07-27 14:54:52 88 0

转载 Vim 快捷键整理

一、移动光标 1、左移h、右移l、下移j、上移k 2、向下翻页ctrl + f,向上翻页ctrl + b 3、向下翻半页ctrl + d,向上翻半页ctrl + u 4、移动到行尾$,移动到行首0(数字),移动到行首第一个字符处^ 5、移动光标到下一个句子 ),移动光标到上一个句子( 6、移动到段...

2019-06-05 14:58:39 61 0

原创 Flink 使用Memory State导致OOM问题与解决

一、现象 1.1 程序现象 程序是处理一个业务由2个表、4条数据、互相Join形成2条结果。Flink读取Kafka。模拟数据程序持续往Kafka插入数据,在TaskManager只有较低内存时,模拟了2000次插入(8000条数据时),Flink的TaskManager就发生了OOM问题。使用j...

2019-05-29 11:33:01 2550 0

原创 Hadoop MapReduce任务设置yarn的队列

网上很多回答,都是: yarn jar app.jar com.xxx.mainClass -D mapreduce.job.queuename=default args1 args2 但是这样设置并不能生效!!!!!是有问题的!!!!! 网上的所有设置都是基于hadoop官方的example。 ...

2018-12-21 14:45:50 1959 0

原创 最近写Flink on Yarn程序遇到的一些问题

1.UDF造成的compile 编译失败 class GetDay() extends ScalarFunction{ // 这个变量千万不能定义在这里,否则调试没问题,on yarn运行会编译出错 // val simpleDateFormat = new SimpleDateFormat(...

2018-10-29 23:16:17 1928 2

原创 使用Flink新的Kafka Connector API读取Kafka Json格式数据

新的API比较好用。设置一个Json的Format,设置一个schema。读取,就完事了。自动注册成相应schema的表。 更多内容参考: https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/table/connect.h...

2018-10-27 20:29:06 9838 11

原创 Flink DataStream /DataSet 与Table的互相转化

Flink DataStream /DataSet 与Table的互相转化 一、DataStream or DataSet to Table 1.1 Register a DataStream or DataSet as Table // get TableEnvironment // regi...

2018-10-23 11:17:58 10070 0

原创 自定义实现Structured Streaming的Sink(以MySQLSink为例)

一、步骤 二、代码 三、效果

2018-08-29 21:15:35 2474 5

原创 mvn 的一些常用命令 与 插件

1.mvn install 2.mvn clean 清理target下的“文件” 3.mvn clean package 根据插件配置打包 4.mvn clean package -Dmaven.test.skip=true 5.mvn deploy 5.mvn depende...

2018-08-29 18:07:54 221 0

原创 Mac 编译Hadoop

Mac 编译Hadoop 一、本地先安装protobuf mac上安装protobuf2.5.0 二、编译Hadoop hulbdeMacBook-Pro:hadoop-branch-2.7.4 hulb$ mvn package -Pdist -DskipTests -Dta...

2018-07-16 11:10:06 311 1

原创 mac上安装protobuf2.5.0

mac上安装protobuf2.5.0 在github上找到相应版本,下载protobuf2.5 https://github.com/google/protobuf/releases?after=v3.0.0-alpha-4.1 解压: tar -zxf protobuf-2.5...

2018-07-16 10:52:49 1462 0

原创 Java Scala 混合编程导致 编译失败 ,【找不到符号】问题解决

大致就是 工程里分了 java 代码 和 scala 代码。 然后在java代码中 引用了 scala 的代码。 运行不报错。 但是打包就是一直报错。 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-co...

2018-07-10 20:45:35 2495 0

原创 Java中的锁

Java中的锁 宏观分类: 名称 乐观锁 悲观锁 特点 读多写少, 遇到并发写的可能性低 认为写多,遇到并发写的可能性高 上锁时机 读不上锁,更新时,上锁 读写都上锁 实现 CAS【读-比较-写】 CAS乐观锁—转换—&a...

2018-07-09 17:05:38 162 0

原创 Hive 中文分区 展示 乱码 注释乱码问题

遇到神一样的客户,遇到神一样的问题,用神一样的脚本来解决。 神问题: 1.要求分区名是中文 例如 dt=今天/city=杭州 插入不进去: 2.Select * from table 时,展示乱码 例如: hive> > select ...

2018-07-06 17:15:40 1522 0

原创 Spark Whole Stage Codegen 解析

Spark Whole Stage Codegen 解析 本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导...

2018-06-21 00:13:22 2418 0

原创 Spark Structured Streaming Continuous模式(一)

Spark Structured Streaming 的Continuous模式是Spark 2.3 引入的一种持续计算模型。相比于之前的微批处理达到10ms内的延迟。 首先还是展示 一个example: import java.util import java.util.UUID imp...

2018-06-21 00:10:31 1087 0

原创 【思维导图】Parquet Orc CarbonData 三种列式存储格式对比

Parquet Orc CarbonData三种存储格式对比

2018-06-20 23:50:59 1927 0

原创 Structured Streaming 动态流 join 静态流 Example

Structured Streaming 动态流 join 静态流 ExampleSpark 代码 ​ /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license a...

2018-05-24 16:27:19 1353 0

原创 Spark Streaming的Event Time和WaterMark理解

EventTime即事件真正生成的时间。例如一个用户在10:06点击 了一个按钮。记录在系统中为10:06。这条数据发送到Kafka,又到了Spark Streaming中处理,已经是10:08了。这个处理的时间就是process Time。Water Mark即 这个时间点之前的数据都到达了。例...

2018-05-19 11:38:53 3707 0

原创 Ranger与Kerberos整合

最近调研了Ranger和Kerveros的结合,基于Ranger可以把没有权限变成有权限,在Kerberos基础上搭建了Ranger,进行细粒度权限控制的探索。流程记录如下。1.在Ambari上安装了Kerberos,HDFS,Yarn,Hive。Pricaple。需要生成Keytab。2.安装R...

2018-05-19 10:43:15 2876 1

原创 carbonData使用文档

一、部署下载源码编译mvn -DskipTests -Pspark-2.1 -Dspark.version=2.1.0 clean packagemvn -DskipTests -Pspark-2.2 -Dspark.version=2.2.1 clean package修改配置文件二、启动:sp...

2018-02-09 10:42:02 1113 1

原创 本地调试(local debug)Hive源码

本地调试(local debug)本次调试本为了修改HiveServer2 以提供授权校验接口,因此下了Hive源码 准备调试一番。主要测试了CliDriver和HiveServer2.主要流程参考了这篇文文章的实现:http://b865a395.wiz03.com/share/s/2Upqel...

2018-01-17 20:30:54 1101 0

原创 Shuffle 调优之 HashShuffleManager 和 SortShuffleManager

spark.shuffle.manager:hash、sort、tungsten-sort(自己实现内存管理)spark.shuffle.sort.bypassMergeThreshold:200spark 1.2.x版本以后,默认的shuffle manager,是什么呢? SortShuf...

2017-12-23 16:25:27 1307 0

原创 shuffle 调优之条件map端内存缓存与reduce端内存占比

spark.shuffle.file.buffer,默认32k spark.shuffle.memoryFraction,0.2map端内存缓冲,reduce端内存占比;很多资料、网上视频,都会说,这两个参数,是调节shuffle性能的不二选择,很有效果的样子, 实际上,不是这样的。以实际的生...

2017-12-23 16:19:21 879 0

原创 shuffle 调优之合并map端的输出

Shuffle 情景描述:每个Executor 有2个 cpu core 4个task。 task是线程执行的。2个core ,4个task的话,就要先并行执行2个task,再跑另外2个task。 第一个stage,每个task,都会给第二个stage的每个task创建一份map端的输出文件 ...

2017-12-23 16:15:04 438 0

原创 shuffle 调优之原理概述

一、什么情况下会发生Shuffle?在spark中,主要是以下几个算子: groupByKey reduceByKey reduceByKey Join 二、什么是shuffle?groupByKey,要把分布在集群各个节点上的数据中的同一个key,对应的values,都给集中到一块儿,集中到集...

2017-12-23 16:03:51 514 0

原创 Flink DataSet API 使用示范

DataSet API 编程示范 package com.dtwave.flink.example import org.apache.flink.api.common.functions._ import org.apache.flink.api.common.operators.Order...

2017-11-30 00:00:34 4992 0

原创 spark+carbondata使用

一、部署下载源码编译修改配置文件注意: 1.1.1 不支持spark2.2 会报错。二、启动: spark-shell –jars carbonlib/carbondata_2.11-1.1.1-shade-hadoop2.7.2.jar 三、使用3.1创建上下文import org.apac...

2017-09-20 17:08:29 1368 0

原创 Presto单机/集群模式安装笔记

Presto单机/集群模式安装笔记一、安装环境 JDK版本要求: 1.9.0_92+ 二、安装步骤 官网下载最新版本https://prestodb.io/docs/current/installation/deployment.html 配置,参考网址http://prestodb-china...

2017-08-29 00:05:06 2275 0

原创 Hive UDF /UDAF /UDTF Example

一些Hive UDF UDAF UDTF 例子 来源于Hive源码 UDF: 1 /** * Licensed to the Apache Software Foundation (ASF) under one * or m...

2017-08-15 21:17:54 668 0

原创 JVM成长之路,记录一次内存溢出导致频繁FGC的问题排查及解决

现象: 现象截图: 内存: 命令: jmap -heap 30069      GC截图:    FGC 次数 19529 次!!!何等的恐怖!!!!! 命令: jstat -gcutil 30069 1000   ...

2017-08-04 21:57:54 9129 3

原创 Spark RPC (思维导图)

高清大图请点击:http://img.blog.csdn.net/20170718001345234?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbHhoYW5kbGJi/font/5a6L5L2T/fontsize/400/fill/I0JBQkFC...

2017-07-18 00:14:34 428 0

原创 Spark 广播 (思维导图)

高清大图请点击链接: 图片地址

2017-07-18 00:11:12 399 0

原创 Spark 性能优化总结(思维导图)

点击查看高清大图 点击打开链接

2017-07-18 00:07:16 1059 0

原创 [Spark源码浅析]-关于sort-based shuffle

在sort-based shuffle,记录根据目标分区id做排序,然后写到一份单一的输出文件中。 Reducers拉取这个文件连续的region 来读取这个输出的位置。 如果这次map的输出数据 太大到不能放在内存中。这个排序输出 会被切分到磁盘。然后被合并到一个最终的文件中。sort-bas...

2017-07-17 23:56:00 335 0

原创 es集群设计

es集群设计 节点 CPU 内存 硬盘 备注 master101 4 16G 2T client node102 4 16G 2T master node103 4 16G 2T datanode node104 ...

2017-04-17 17:39:58 2374 0

提示
确定要删除当前文章?
取消 删除