coderlaw's study

学习成长,总结反思。

Spark性能调优系列目录

Spark性能调优系列目录:普通调优 性能调优之在实际项目中分配更多的资源 性能调优之在实际项目中调节并行度 性能调优之在实际项目中,重构RDD架构以及RDD持久化 性能调优之在实际项目中广播大变量 性能调优之在实际项目中使用Kryo序列化 性能调优之在实际项目中,使用fastutil优化数据格式...

2016-09-19 16:06:09

阅读数 614

评论数 0

Vim 快捷键整理

一、移动光标 1、左移h、右移l、下移j、上移k 2、向下翻页ctrl + f,向上翻页ctrl + b 3、向下翻半页ctrl + d,向上翻半页ctrl + u 4、移动到行尾$,移动到行首0(数字),移动到行首第一个字符处^ 5、移动光标到下一个句子 ),移动光标到上一个句子( 6、移动到段...

2019-06-05 14:58:39

阅读数 11

评论数 0

Flink 使用Memory State导致OOM问题与解决

一、现象 1.1 程序现象 程序是处理一个业务由2个表、4条数据、互相Join形成2条结果。Flink读取Kafka。模拟数据程序持续往Kafka插入数据,在TaskManager只有较低内存时,模拟了2000次插入(8000条数据时),Flink的TaskManager就发生了OOM问题。使用j...

2019-05-29 11:33:01

阅读数 43

评论数 0

Hadoop MapReduce任务设置yarn的队列

网上很多回答,都是: yarn jar app.jar com.xxx.mainClass -D mapreduce.job.queuename=default args1 args2 但是这样设置并不能生效!!!!!是有问题的!!!!! 网上的所有设置都是基于hadoop官方的example。 ...

2018-12-21 14:45:50

阅读数 417

评论数 0

最近写Flink on Yarn程序遇到的一些问题

1.UDF造成的compile 编译失败 class GetDay() extends ScalarFunction{ // 这个变量千万不能定义在这里,否则调试没问题,on yarn运行会编译出错 // val simpleDateFormat = new SimpleDateFormat(...

2018-10-29 23:16:17

阅读数 761

评论数 2

使用Flink新的Kafka Connector API读取Kafka Json格式数据

新的API比较好用。设置一个Json的Format,设置一个schema。读取,就完事了。自动注册成相应schema的表。 更多内容参考: https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/table/connect.h...

2018-10-27 20:29:06

阅读数 2844

评论数 6

Flink DataStream /DataSet 与Table的互相转化

Flink DataStream /DataSet 与Table的互相转化 一、DataStream or DataSet to Table 1.1 Register a DataStream or DataSet as Table // get TableEnvironment // regi...

2018-10-23 11:17:58

阅读数 2956

评论数 0

自定义实现Structured Streaming的Sink(以MySQLSink为例)

一、步骤 二、代码 三、效果

2018-08-29 21:15:35

阅读数 1093

评论数 0

mvn 的一些常用命令 与 插件

1.mvn install 2.mvn clean 清理target下的“文件” 3.mvn clean package 根据插件配置打包 4.mvn clean package -Dmaven.test.skip=true 5.mvn deploy 5.mvn depende...

2018-08-29 18:07:54

阅读数 100

评论数 0

Mac 编译Hadoop

Mac 编译Hadoop 一、本地先安装protobuf mac上安装protobuf2.5.0 二、编译Hadoop hulbdeMacBook-Pro:hadoop-branch-2.7.4 hulb$ mvn package -Pdist -DskipTests -Dta...

2018-07-16 11:10:06

阅读数 166

评论数 1

mac上安装protobuf2.5.0

mac上安装protobuf2.5.0 在github上找到相应版本,下载protobuf2.5 https://github.com/google/protobuf/releases?after=v3.0.0-alpha-4.1 解压: tar -zxf protobuf-2.5...

2018-07-16 10:52:49

阅读数 647

评论数 0

Java Scala 混合编程导致 编译失败 ,【找不到符号】问题解决

大致就是 工程里分了 java 代码 和 scala 代码。 然后在java代码中 引用了 scala 的代码。 运行不报错。 但是打包就是一直报错。 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-co...

2018-07-10 20:45:35

阅读数 1096

评论数 0

Java中的锁

Java中的锁 宏观分类: 名称 乐观锁 悲观锁 特点 读多写少, 遇到并发写的可能性低 认为写多,遇到并发写的可能性高 上锁时机 读不上锁,更新时,上锁 读写都上锁 实现 CAS【读-比较-写】 CAS乐观锁—转换—&a...

2018-07-09 17:05:38

阅读数 60

评论数 0

Hive 中文分区 展示 乱码 注释乱码问题

遇到神一样的客户,遇到神一样的问题,用神一样的脚本来解决。 神问题: 1.要求分区名是中文 例如 dt=今天/city=杭州 插入不进去: 2.Select * from table 时,展示乱码 例如: hive> >...

2018-07-06 17:15:40

阅读数 827

评论数 0

Spark Whole Stage Codegen 解析

Spark Whole Stage Codegen 解析 本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导...

2018-06-21 00:13:22

阅读数 1118

评论数 0

Spark Structured Streaming Continuous模式(一)

Spark Structured Streaming 的Continuous模式是Spark 2.3 引入的一种持续计算模型。相比于之前的微批处理达到10ms内的延迟。 首先还是展示 一个example: import java.util import java.util.UUID imp...

2018-06-21 00:10:31

阅读数 527

评论数 0

【思维导图】Parquet Orc CarbonData 三种列式存储格式对比

Parquet Orc CarbonData三种存储格式对比

2018-06-20 23:50:59

阅读数 1049

评论数 0

Structured Streaming 动态流 join 静态流 Example

Structured Streaming 动态流 join 静态流 ExampleSpark 代码 ​ /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license a...

2018-05-24 16:27:19

阅读数 877

评论数 0

Spark Streaming的Event Time和WaterMark理解

EventTime即事件真正生成的时间。例如一个用户在10:06点击 了一个按钮。记录在系统中为10:06。这条数据发送到Kafka,又到了Spark Streaming中处理,已经是10:08了。这个处理的时间就是process Time。Water Mark即 这个时间点之前的数据都到达了。例...

2018-05-19 11:38:53

阅读数 1583

评论数 0

Ranger与Kerberos整合

最近调研了Ranger和Kerveros的结合,基于Ranger可以把没有权限变成有权限,在Kerberos基础上搭建了Ranger,进行细粒度权限控制的探索。流程记录如下。1.在Ambari上安装了Kerberos,HDFS,Yarn,Hive。Pricaple。需要生成Keytab。2.安装R...

2018-05-19 10:43:15

阅读数 1173

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭