Flink
文章平均质量分 84
青冬
想改变世界,却困于肉身。
展开
-
Flink 第3章 反压策略
Flink 中文网站的讲解涉及内容:网络流控的概念与背景TCP的流控机制Flink TCP-based 反压机制 1.5之前Flink Credit-based 反压机制 1.5及以后总结与思考。原创 2023-01-06 22:57:21 · 426 阅读 · 0 评论 -
Flink 第8.8章 Flink FlinkSink 流式数据落盘 FileSink
Flink版本: 1.15.0在 Flink 中,FileSink,大多数场景都是 kafkaSource & kafkaSink,但不乏需要将数据写一部分到离线中的场景。对此, Flink 提供了 StreamingFileSink 来处理 Steaming 写出到 FileSystem 接口的文件系统中,并且支持 Exactly-Once 语义。基于 check point 来实现。并且很好兼容 Hive 等分区场景。今天主要讲讲 FileSink 的使用方法及实现。比如一个实时流数据落盘到本地磁盘中.原创 2022-06-14 18:35:21 · 3888 阅读 · 5 评论 -
Flink 第8.4章 Flink Join 精讲
序参考: Flink 中文社区预计阅读时间:15min,共5700字。JoinJoin 语义以及实现现在有很多的成熟方案,然而近年来,实时流之间的Join 却是刚刚起步。在 Join 之中,最重要的就是我们一般实现 join 需要依赖于缓存整个数据集,但是在实时数据中,他是一个无限的数据流,内存压力和计算效率在长时间运行时,都会带来不可避免的问题。那么我们先讲讲对于 Join的基础知识。Batch SQL Join传统的离线Batch SQL 有三种基础的...原创 2022-05-07 11:42:41 · 4533 阅读 · 0 评论 -
Flink 第8.3章 Flink WarterMark 源码信息 未完结
序参考:Flink源码分析——WaterMark源码分析 - 知乎Flink源码解析系列-- WatermarkGenerator接口及其常用实现_打酱油的葫芦娃的博客-CSDN博客Flink教程-聊聊 flink 1.11 中新的水印策略 - 知乎EventTime我们一般使用 EventTime 来进行各种数据的统计,但是数据从产生到进入 Flink 的过程中,经常遇到各种错序问题,那么就需要使用 WaterMark 来进行解决,我们先看看最简单的一个根据 Even...原创 2022-05-04 21:17:22 · 1025 阅读 · 0 评论 -
Flink 第8.2章 Flink 的键组 KeyGroup 与 缩放 Rescale
序参考:Flink状态的缩放(rescale)与键组(Key Group)设计_LittleMagics的博客-CSDN博客【Flink】Flink key 应该分配到哪个 KeyGroup 以及 KeyGroup 分配在哪个subtask_九师兄的博客-CSDN博客_flink key总览:共计2k字,阅读时间10min。前言在 Flink 中,有很多数据需要进行保存,而且以及集群的方式进行保存以及重现。在分布式中的保存以及回复是很难实现的。那么我们先看看 Fli...原创 2022-04-06 14:37:27 · 2924 阅读 · 0 评论 -
Flink 第1章 Flink资源与内存模型占用空间计算方式。
Flink 第1章 Flink资源与内存模型资源配置调优开发了一些程序,那么怎么评估这些程序所需要的资源配比这些呢?比如使用标准的Flink任务提交脚本 Generic CLI模式(通用客户端模型)从1.11开始,增加了通用的客户端模型 使用-D指定kv变量(这里演示以1.13.2为准)。bin/flink run \ -t yarn-per-job \ -d \-p 5\ # 执行并行度-Dyarn.application.queue=test \ # 指定yarn队列-Djob原创 2022-03-18 17:41:33 · 3978 阅读 · 0 评论 -
Flink 第8.1章 Flink Timer 机制原理,源码整理。
其实大多数 Flink Timer实现的都是根据LittleMagics发表的文章进行加工改造,但是大佬的思路有点跳跃,有些地方个人认为没有表现很清楚,所以摸索着大佬的主线,自己啃了一遍源码写出这篇文章。原创 2022-04-01 16:16:07 · 3315 阅读 · 0 评论 -
Flink 第2章 状态及Checkpoint调优
RocksDB大状态调优RocksDB是基于LSM Tree实现的,写数据都是先写入到内存中,所有RocksDB的写请求效率较高。RocksDB使用内存结合磁盘的方式来存储数据,每次获取数据时,先从内存中的blockcache中查找,如果没有再去磁盘中查询。使用RocksDB时,状态大小仅受可用磁盘空间量的限制,性能瓶颈主要在于RocksDB对磁盘的读请求,每次读写操作都必须对数据进行序列化或者反序列化。当处理性能不够的时候,需要横向扩展并行度提高整个Job的吞吐量。开启..原创 2022-03-18 17:56:31 · 2587 阅读 · 0 评论 -
Flink 面试跳槽指南(1)——带领你疏通航道
Flink 面试跳槽指南(1)序作者:Hadi时间:2022年2月7日参考各种blog和官方文档,纯手打,如果差错请评论区见,或者提交到CSDN用户:https://blog.csdn.net/qq_36610426如需转载,也请联系作者。文章地址:https://blog.csdn.net/qq_36610426/article/details/122821112Flink 基础Flink 介绍Flink是一个面向分布式数据流处理 和 批处理数据的开源计算引擎。用于对无界和有界的原创 2022-02-08 11:51:58 · 1463 阅读 · 0 评论 -
ParquetRowInputFormat Flink 定时获取HDFS上某路径的parquet文件,并作为dim与Kafka中的主表进行关联。
Flink 定时获取HDFS 上某路径的parquet文件,并作为dim进行关联。序ParquetRowInputFormat间隔获取HDFS上的文件使用广播进行关联序在前文提到使用Flink SQL 在1.13.2版本下无法支撑定时获取HDFS上的文件(更新等状态),但是Flink 的API上其实是提供了这个方案的。ParquetRowInputFormatParquetRowInputFormat 是继承于RichInputFormat 的文件读取器,使用它可以定时的去更新整个数据的流向。间原创 2021-10-28 18:39:33 · 1287 阅读 · 1 评论 -
当使用Flink 获取HDFS上的文件作为表进行计算时报错 file not found。
Flink 定时获取HDFS 上某路径的parquet文件,并作为dim进行关联。序业务SQL 实现问题报错的时机报错详细社区回复解决序在进行Flink 开发的时候,使用的是Flink 1.13.2版本,当前版本对Flink SQL支持已经比较不错了,所以想用纯Flink SQL进行开发。业务消费Kafka 中的数据作为主表,获取HDFS路径上的某一个配置dim表进行关联然后输出到Kafka中。SQL 实现这里仅仅使用少量的sql做个演示,创建主表SQL:CREATE TABLE main_原创 2021-10-28 18:17:54 · 1567 阅读 · 0 评论 -
Flink SQL 获取FileSystem时,如果FileName发生更改在则会报错
FLink SQL在设定各类数据源和数据目标端的时候非常方便,可以说写个建表语句就能获取各种各样的数据。但是在使用FileSystem获取某目录下的数据时需要小心使用,比如:CREATE TABLE `cfg_city`( `provincecode` int, `city_id` int, `city_name` string)WITH ( 'connector'='filesystem', 'path'='hdfs://pathroot/cfg_city', .原创 2021-10-27 10:18:01 · 1196 阅读 · 1 评论 -
ByteArraySerializer is not an instance of org.apache.kafka.common.serialization.Serializer
ByteArraySerializer is not an instance of org.apache.kafka.common.serialization.Serializer背景在Flink使用Kafka进行Source 或者Sink的时候需要进行KeyValue的序列化和反序列化操作。现在应该没有人用Kafka 0.XX版本的了吧,估计都是1.X 或者2.X版本。在这两个版本中,可以直接使用更新的Flink-Kafka-connection 包,具体使用可以参照官网。报错类型消费和生产弄原创 2021-06-06 21:22:56 · 2113 阅读 · 1 评论 -
Flink写500亿/天数据到远端Kafka排错、Flink优化记录。
序since:2021年6月3日 19:32suth: Hadi注:由于为公司项目,所以大多数内容进行了屏蔽或删除处理,记录此只是希望大家继续学习,如果发现任何ip、人物、服务器等信息,请立即私信我进行更改,请勿走上违法犯罪道路!前言5月26号接到上级命令,协助优化Flink推送数据,现在问题有数据掉落,数据重复,数据积压,数据损坏等等,基本能遇到的数据推送的问题全都有了。所用核心数为105核(本文所有的资源与数据量都是以A预处理集群进行讨论的),单核单位MEM为4G,数据...原创 2021-06-06 16:26:57 · 3762 阅读 · 12 评论