Flink
唐予之_
Java Scala Hadoop Spark Hive Kafka
展开
-
改写flink kafka consumer实现自定义读取消息及控制
背景:flink1.8实现暂停消费kafka并能接受到通知,继续消费kafka需求描述:实现思路类1:package org.apache.flink.streaming.connectors.kafka.internal;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafk原创 2020-12-06 23:30:24 · 1625 阅读 · 0 评论 -
Flink DataStream /DataSet 与Table的互相转化
Flink DataStream /DataSet 与Table的互相转化一、DataStream or DataSet to Table1.1 Register a DataStream or DataSet as Table// get TableEnvironment // registration of a DataSet is equivalentval tableEnv = ...原创 2018-10-23 11:17:58 · 16566 阅读 · 1 评论 -
最近写Flink on Yarn程序遇到的一些问题
1.UDF造成的compile 编译失败class GetDay() extends ScalarFunction{// 这个变量千万不能定义在这里,否则调试没问题,on yarn运行会编译出错// val simpleDateFormat = new SimpleDateFormat("yyyyMMdd") def eval():String = { val simpleD...原创 2018-10-29 23:16:17 · 3038 阅读 · 3 评论 -
使用Flink新的Kafka Connector API读取Kafka Json格式数据
新的API比较好用。设置一个Json的Format,设置一个schema。读取,就完事了。自动注册成相应schema的表。更多内容参考:https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/table/connect.html#kafka-connectorpackage org.apache.flink.stream...原创 2018-10-27 20:29:06 · 15890 阅读 · 14 评论 -
Flink 使用Memory State导致OOM问题与解决
一、现象1.1 程序现象程序是处理一个业务由2个表、4条数据、互相Join形成2条结果。Flink读取Kafka。模拟数据程序持续往Kafka插入数据,在TaskManager只有较低内存时,模拟了2000次插入(8000条数据时),Flink的TaskManager就发生了OOM问题。使用jstat -gcutil 查看JVM进程发现Old区域在年轻代做垃圾回收时,每次持续5%左右的增长,直...原创 2019-05-29 11:33:01 · 6488 阅读 · 0 评论 -
Flink中的一些概念区分
1.各个执行Graph2.JobManager和JobMaster3.Task?Slot?StreamTask?4.Checkpoint?5.BarrierBuffer和BarrierTracker?1.图生成StreamGraphJobGraph:StreamingJobGraphGenerator.createJobGraph()-jobvertex-JobGraph...原创 2019-07-27 14:54:52 · 357 阅读 · 0 评论