flink
文章平均质量分 93
迷路剑客
弱小和无知不是生存的障碍,傲慢才是。
展开
-
Flink-源码Bug修复和二次开发实践
Flink-源码Bug修复和二次开发实践==1 Bug修复解决Flink Sql DDL 中使用time作为字段关键字某些场景报错的Bugflink 1.10解决Json反序列化时,如果内容带\时,TextNode直接转ObjectNode接续报错的Bug2 新增功能2.1 KuduConnector参考了bahir-flink ,基于Flink 1.11 ,围绕最新的RowData类型,实现以下功能:KuduDynamicSink可直接Flink Sql流式写入Kudu。还有继续优原创 2020-12-13 16:48:07 · 866 阅读 · 0 评论 -
Flink-作业提交流程
Flink-作业提交流程1 概述Flink DataStream一个作业提交,大致有以下几步编译阶段-Client生成StreamGraph将每个算子转换为Transformation,并且记录下每个input Transformation。将每个Transformation转换为StreamNode,以及带有并行度和Partitioner信息的、有向的StreamEdge,StreamNode会记录出边outEdges和入边inEdges这样就得到了一个有向图StreamGraph原创 2020-08-28 11:04:52 · 2875 阅读 · 0 评论 -
Flink-水位
Flink-水位摘要本文主要讲解Flink的水位相关基础理论知识,并会辅以源码讲解。可参考:Event Time and Watermarks1 水位产生背景前面Time和窗口章节提到过Processing Time和Event Time两种时间度量方式,后者可以尽可能让Event划分窗口准确。比如可以看到由于网络延迟,造成C到流式引擎的时间稍有延迟,那么分别按两种Time进行处理的情况如下:可以看到,如果基于Processing Time则Event C会被错误划分到第二个窗口,而原创 2020-08-22 12:03:25 · 1852 阅读 · 2 评论 -
Flink学习-HDFSConnector(StreamingFileSink)
Flink学习-HDFSConnector(StreamingFileSink)Flink系列文章更多Flink系列文章请点击Flink系列文章更多大数据文章请点击大数据好文推荐摘要本文主要介绍Flink中的DataStream之HDFSConnector(StreamingFileSink),包含概念介绍、源码解读、实际Demo,已经更新到最新的Flink 1.10。可参考:Flink-1.10-StreamingFileSinkFlink-master-StreamingF原创 2020-07-07 16:26:35 · 1691 阅读 · 0 评论 -
Flink系列文章
Flink系列文章1 概念Flink学习1-基础概念浅析背压(Back Pressure)机制及其在 Spark & Flink中的实现2 安装和配置Flink学习2-安装和启动3 使用3.1 概览Flink学习3-API介绍3.2 DataStream3.2.1 概览Flink-DataStream-HDFSConnector(StreamingFil...原创 2020-04-22 09:55:21 · 2173 阅读 · 1 评论 -
Flink-时间窗口源码分析
Flink-时间窗口源码分析1 时间窗口基本概念见Flink学习1-基础概念-时间窗口2 滚动窗口2.1 基于Blink的滚动EventTime时间窗口源码分析2.1.1 概述我们现在开始用Flink 1.10,该版本可使用很多Blink特性,我们重点在研究Flink SQL实现流平台,而尽量不写代码。而基于EventTime的滚动时间窗口又是很常用的,我们在使用时遇到了水印时间自动加...原创 2020-04-18 18:52:00 · 1682 阅读 · 0 评论 -
Flink-流平台调研
Flink-流平台调研1 flinkStreamSQLflinkStreamSQL是袋鼠云大数据团队基于开源的flink,对其实时sql进行了扩展;主要实现了流与维表的join,支持原生flink SQL所有的语法。优点是可以纯SQL的方式提交应用运行。缺点是目前版本只支持到Flink 1.8,不支持1.9以后的Blink特性,很多函数都无法使用需要自己写UDF。提了个issue,回复说...原创 2020-03-26 14:27:17 · 1619 阅读 · 0 评论 -
HDFS租约与Flink StreamingFileSink
1 概述HDFS文件的特点是一次写多次读并且不支持客户端的并行写操作,hdfs采用租约机制来保证对文件的互斥操作。某个DFSClient打开文件流时,该DFSClient即为租约持有者(LeaseHolder),租约由NameNode发放。租约就是在规定时间内拥有写文件权限的许可凭证,HDFS提供Lease机制来保证写入数据的一致性。也就是说,租约是HDFS给予客户端的一个写...原创 2020-03-14 15:04:27 · 1288 阅读 · 0 评论 -
Flink-StreaimingFileSink-自定义序列化-Parquet批量压缩
Flink-StreaimingFileSink-自定义序列化-Parquet批量压缩1 Maven依赖Flink有内置方法可用于为Avro数据创建Parquet writer factory。要使用ParquetBulkEncoder,需要添加以下Maven依赖:<dependency> <groupId>org.apache.flink</groupI...原创 2020-03-09 12:37:19 · 4599 阅读 · 11 评论 -
Flink学习-DataStream-HDFSConnector(StreamingFileSink)
Flink学习-DataStream-HDFSConnector(StreamingFileSink)摘要本文主要介绍Flink1.9中的DataStream之HDFSConnector(StreamingFileSink),大部分内容翻译、整理自官网。以后有实际demo会更新。可参考StreamingFileSink更多Flink API内容可参考Flink学习3-API介绍-SQL...原创 2020-01-16 18:24:03 · 2592 阅读 · 0 评论 -
Flink学习-DataStream-KafkaConnector
Flink学习-DataStream-KafkaConnector摘要本文主要介绍Flink1.9中的DataStream之KafkaConnector,大部分内容翻译、整理自官网。以后有实际demo会更新。可参考kafka-connector如果关注Table API & SQL中的KafkaConnector,请参考Flink学习3-API介绍-SQL1 Maven依赖Fl...原创 2020-01-16 18:20:26 · 842 阅读 · 0 评论 -
背压/反压/BackPressure
转载声明本文大量内容系转载自以下文章,有删改,并参考其他文档资料加入了一些内容:浅析背压(Back Pressure)机制及其在 Spark & Flink中的实现作者:丰巢数据团队出处: Flink转载仅为方便学习查看,一切权利属于原作者,本人只是做了整理和排版,如果带来不便请联系我删除。摘要Back Pressure是流处理系统中,非常经典而常见的问题,它是让流系统能...转载 2019-12-04 23:59:10 · 4950 阅读 · 0 评论 -
Flink学习5-使用rowtime且分窗,Connector读取Kafka写入MySQL例子
Flink系列5-使用rowtime且分窗,Connector读取Kafka写入MySQL例子系列文章目录Flink系列1-基础概念Flink系列2-安装和启动Flink系列3-API介绍Flink系列4-流式SQLFlink系列5-使用rowtime且分窗,Connector读取Kafka写入MySQL例子摘要本文本来应该写在Flink学习3-API介绍的Connector章...原创 2019-10-28 21:34:09 · 5306 阅读 · 4 评论 -
Flink学习6-常见问题
Flink学习5-常见问题1 启动报错ClassCastException: cannot assign instance使用bin/flink run -m yarn-cluster ...方式提交flink作业时,报错如下:Caused by: java.lang.ClassCastException: cannot assign instance of org.apache.comm...原创 2019-10-24 11:21:49 · 6383 阅读 · 1 评论 -
Flink学习4-流式SQL
Flink学习4-流式SQL摘要最近需要做流式数仓,所以调研就要Flink流式SQL。初期选定袋鼠云做的flinkStreamSQL。本文会记录一下重要的文章。1 flinkStreamSQL1.1 flinkStreamSQL解决的问题原生FlinkSQL没有实现对数据来源、数据目的地的SQL化,必须要写代码。这个就很坑了,一般来说,SQL面向数据分析人员,如果要写代码无疑提高了门槛...原创 2019-09-20 12:10:51 · 6509 阅读 · 0 评论 -
Flink学习3-API介绍
Flink学习3-API介绍0x00 系列文章目录Flink系列1-基础概念Flink系列2-安装和启动Flink系列3-API介绍0x01 摘要本文主要是介绍Flink的不同层次(level)API抽象,学习怎么通过API高效处理有状态性的计算无界和有界的数据流。0x02 基本概念在Flink流式处理框架中,有几个很重要的概念即streams,state,time。 下面我...原创 2018-09-29 00:28:26 · 4574 阅读 · 0 评论 -
Flink学习2-安装、启动和配置
Flink系列2-安装和启动0x00 系列文章目录Flink系列1-基础概念Flink系列2-安装和启动0x01 摘要本篇文章主要讲解Flink下载、安装和启动的步骤。0x02 下载关于下载的更多信息可参考Flink官网如果是用的MacOS X,可以直接用Homebrew安装:brew install apache-flink当前最新稳定的版本是v1.6.1。Flink...原创 2018-09-28 15:26:18 · 10961 阅读 · 0 评论 -
Flink学习1-基础概念
Flink系列1-基础概念0x00 系列文章目录Flink系列1-基础概念Flink系列2-安装和启动0x01 摘要本文是作者学习Flink的一些文档整理、记录和心得体会,希望与大家共同学习探讨。0x02 Flink简介2.1 概念Apache Flink是一个开源的分布式流式处理框架,他有强大的流式和批处理能力。流式处理方面,Flink能对有界、无界数据流做有状态的计算(s...原创 2018-09-28 00:44:55 · 4379 阅读 · 0 评论