卡搜偶
这个作者很懒,什么都没留下…
展开
-
flink sql 使用自定义的mysql source分片读取
最近遇到个场景,需要对大表进行 Table Scan,使用官方的 jdbc connect, 发现在执行的时候,如果表的数据量很大(百万级别),在 select 阶段会消耗大量的时间,如下:任务执行了 9 分钟多,数据才上来,数据上来后,差不多一批就全部上来了差不多 10 分钟读完,还不能通过增加并行度的方式提高读取速度。原创 2022-08-24 15:13:34 · 1253 阅读 · 0 评论 -
Flink 远程调试
背景:很多小伙伴开发的时候都会在本地调试之后上真实的集群环境,但是本地环境和集群环境还是有本质区别的,当遇到集群环境问题时,所有人都会想如果也能像本地调试就好了,其实 Flink on yarn 远程调试也不复杂,只需要简单的配置即可。远程调试基本配置以最简单的java程序说起IDEA不仅可以本地调试代码,也可以远程调试代码。一、基本原理本机和远程主机的两个 VM 之间使用 Debug 协议通过 Socket 通信,传递调试指令和调试信息。被调试程序的...原创 2022-04-07 11:21:36 · 2921 阅读 · 0 评论 -
flink. 遇到的问题
1. flink run 时Association with remote system [akka.tcp://flink@bigdata2.com:33258] has failed, address is now gat链接错误在etc/hadoop/yarn-site.xml文件中,修改检查虚拟内存的属性为false,如下:<property> <name>yarn.nodemanager.vmem-check-enabled</name&原创 2020-06-28 22:45:47 · 2335 阅读 · 0 评论 -
flink 编译问题
1.编译flink 1.9 flink-table-api-java 编译不过[ERROR] Failed to execute goal> org.apache.maven.plugins:maven-compiler-plugin:3.8.0:compile> (default-compile) on project flink-table-api-java: Compilation failure>> [ERROR]>> /home/venn/git原创 2020-05-12 23:05:38 · 379 阅读 · 0 评论 -
一行配置作业性能提升53%!Flink SQL 性能之旅
最近,我们用 SQL 查询做了一些实验,这个查询关联了一些维表的丰富原始记录。同时,我们也考虑如果使用 DataStream API 实现相同的任务,是否能够从现有机器中激发出更多的性能。在本文中,我们想带你一起看看这是否有可能发生,以及如何实现?我们还会为不同于 PoC 代码的作业提供进一步的提示,并对未来的工作进行展望。我们在 Azure Kubernetes 设置中执行了 10 个...原创 2020-03-17 15:40:58 · 285 阅读 · 0 评论 -
Flink1.8进阶:Flink1.8批量Sink到HBase
实现背景:消费Kafka数据写入HBase时,单条处理效率太低。需要批量插入hbase,这里自定义时间窗口countWindowAll 实现100条hbase插入一次Hbase前面我就不写了 直接上核心代码/*每10秒一个处理窗口*/DataStream<List<Put>> putList = filterData.countWindowAll(C...原创 2020-03-17 10:45:37 · 1065 阅读 · 0 评论 -
Flink 写入HDFS - 使用 BucketingSink
一、应用场景:Flink 消费 Kafka 数据进行实时处理,并将结果写入 HDFS。二、Bucketing File Sink由于流数据本身是无界的,所以,流数据将数据写入到分桶(bucket)中。默认使用基于系统时间(yyyy-MM-dd--HH,0时区)的分桶策略。在分桶中,又根据滚动策略,将输出拆分为 part 文件。1、Flink 提供了两个分桶策略,分桶策略实现了...原创 2020-03-13 11:27:29 · 1462 阅读 · 0 评论 -
StreamingFileSink压缩与合并小文件
Flink目前对于外部Exactly-Once写支持提供了两种的sink,一个是Kafka-Sink,另一个是Hdfs-Sink,这两种sink实现的Exactly-Once都是基于Flink checkpoint提供的hook来实现的两阶段提交模式来保证的,主要应用在实时数仓、topic拆分、基于小时分析处理等场景下。本篇将会介绍StreamingFileSink的基本用法、如何压缩数据以及合并...原创 2020-03-11 14:01:30 · 793 阅读 · 0 评论 -
Flink Checkpoint 异常解析与应用实践
为了保证实时任务的容错恢复以及停止重启时的状态恢复,几乎所有的实时任务都会开启 Checkpoint 或者触发 Savepoint 进行状态保存。由于 Savepoint 底层原理的实现和 Checkpoint 几乎一致,本文结合 Flink 1.9 版本,重点讲述 Flink Checkpoint 原理流程以及常见原因分析,让用户能够更好的理解 Flink Checkpoint,从而开发出更健壮...原创 2020-03-10 15:29:09 · 329 阅读 · 0 评论 -
Flink 配置文件
安装目录下主要有 flink-conf.yaml 配置、日志的配置文件、zk 配置、Flink SQL Client 配置。1、flink-conf.yaml基础配置# jobManager 的IP地址jobmanager.rpc.address: localhost# JobManager 的端口号jobmanager.rpc.port: 6123# JobManage...原创 2019-05-06 09:52:06 · 735 阅读 · 0 评论 -
Flink 三种运行模式安装部署和WorldCount
前言Flink三种运行方式:Local、Standalone、On Yarn。成功部署后分别用Scala和Java实现wordcount环境版本:Flink 1.7.X集群环境:Hadoop2.6开发工具: IntelliJ IDEA一.Local模式解压:tar -zxvf flink-1.7.X-bin-hadoop26-scala_2.11.tgzcd flink-...原创 2019-04-30 17:04:18 · 1226 阅读 · 0 评论 -
Implement Streaming HBaseTableSink
HbaseTableSink实现点讨论:1.HbaseTableSink实现基于HbaseSink Sink本身实现不考虑容错性,可以直接对流数据进行条插入或批插入。如果仅考虑此那么就有悖Flink组件本身提出的容错语义(exactly once or at least once)。下面结合Flink容错语义就幂等性请求和非幂等性请求做具体展开。1.1.幂等插入 幂等插入适用于...原创 2020-03-20 14:23:32 · 1301 阅读 · 0 评论 -
Flink standalone
Flink集群安装部署1:standalone模式集群节点规划(一主两从)hadoop100--master(JobManager)hadoop101--slave(TaskManager)hadoop102--slave(TaskManager)基础环境: jdk1.8及以上【需要配置JAVA_HOME】 ssh免密码登录(至少要实现主节点能够免密登录到从节点)...原创 2019-09-19 15:30:48 · 254 阅读 · 0 评论