Flink
文章平均质量分 70
Perkinl
但行好事,莫问前程
展开
-
大数据开发、数仓、实时数仓
最近上传的精品课程,有需要的请收藏大数据开发架构课程: https://www.bilibili.com/video/BV1GX4y1g7yM/Flink实时数仓项目实践: https://www.bilibili.com/video/BV1jv41187iP/大数据体系数据仓库建设: https://www.bilibili.com/video/BV1gh411D7md/关注公众号 ,专注于java大数据领域离线、实时技术干货定期分享!个人网站 www.lllpan.top...原创 2021-04-20 11:46:54 · 323 阅读 · 1 评论 -
Flink算子间数据传递模式
算子之间传输数据的形式可以是one-to-one (forwarding)的模式也可以是redistributing的模式,具体是哪一种形式,取决于算子的种类。One-to-one: Stream(比如在 source 和 map operator 之间)维护着分区以及元素的顺序。那意味着 map 算子的子任务看到的元素的个数以及顺序跟 source 算子的子任务生产的元素的个数、顺序相同,map、fliter、flatMap 等算子都是 one-to-one 的对应关系(类似于 spark 中的窄依原创 2021-03-18 13:22:56 · 1867 阅读 · 8 评论 -
Flink运行时组件和基于Yarn的任务提交
运行时组件Flink 运行时架构主要包括以下四个不同的组件,它们会在运行流处理应用程序时协同工作:分发器(Dispatcher):**可以跨作业运行,它为应用提交提供了 REST 接口。当一个应用被提交执行时,分发器就会启动并将应用移交给一个 JobManager。**由于是 REST 接口,所以 Dispatcher 可以作为集群的一个 HTTP 接入点,这样就能够不受防火墙阻挡。Dispatcher 也会启动一个 Web UI,用来方便地展示和监控作业执行的信息(Dispatcher 在架构中可能原创 2021-03-16 21:16:32 · 304 阅读 · 2 评论 -
Windows窗口函数(增量聚合)
案例可参考(切换到Flink1.12分支查看最新代码):https://github.com/perkinls/flink-local-train 定义窗口Window assigner,后,我们需要指定要在每个窗口上执行的计算。这是窗口函数的职责,一旦系统确定某个窗口已准备好进行处理,就可以使用该窗口函数来处理每个(按key分组)窗口的元素。ProcessWindowFunction可以与ReduceFunction或AggregateFunction组合在一起,在元素到达窗口时增量地聚合它们.原创 2021-03-09 14:02:55 · 962 阅读 · 4 评论 -
Flink窗口起始时间计算
Flink中窗口的时间不是根据进入窗口的第一个元素计为窗口的开始时间和加Size计窗口结束时间,而是根据Flink内置计算公式timestamp - (timestamp - offset + windowSize) % windowSize计算。/** * Method to get the window start for a timestamp. * * @param timestamp epoch millisecond to get the window start. (记录时间戳)原创 2021-03-05 13:04:31 · 3755 阅读 · 0 评论 -
如何理解Flink中Window?
Window 概述Streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割无限数据 为有限块进行处理的手段。Window 是无限数据流处理的核心,Window 将一个无限的 stream 拆分成有限大 小的”buckets”桶,我们可以在这些桶上做计算操作。Window 类型Window 可以分成两类:CountWindow: 按照指定的数据条数生成一个 Window,与时间无关。TimeWi原创 2021-03-03 13:39:27 · 1447 阅读 · 0 评论 -
低级处理函数ProcessFunction
原文链接:https://zhuanlan.zhihu.com/p/1307082771. ProcessFunction定义ProcessFunction 函数是低阶流处理算子,可以访问流应用程序所有(非循环)基本构建块:事件 (数据流元素)状态 (容错和一致性,仅用于keyed stream)定时器 (事件时间和处理时间,仅用于keyed stream)ProcessFunction 可以被认为是一种提供了对 KeyedState 和定时器访问的 FlatMapFunction。每在.转载 2021-02-23 17:53:44 · 2491 阅读 · 0 评论 -
大数据学习视频
课程链接地址【极限班培训】大数据hadoop+strom+spark+openstack等链接:https://pan.baidu.com/s/1fUjzNZnGbYWuOPWibB0bwA大数据实时计算系统实践Flink链接:https://pan.baidu.com/s/1I8Eaih_zH0In6MiCIV7_Vg10小时入门大数据链接:https://...原创 2020-04-02 10:08:10 · 5060 阅读 · 4 评论 -
Flink Table Api详解(算子)
该文章主要是对Flink官网相关内容进行翻译,原文地址:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/tableApi.html#over-windowsTable API是用于流和批处理的统一的关系API。Table API查询可以在批处理或流输入上运行而无需修改。Table API是SQL语言...翻译 2020-03-05 13:50:31 · 10882 阅读 · 0 评论 -
Table Api & SQL查询配置(状态清理)
该文章主要是对Flink官网相关内容进行翻译,原文地址: https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/streaming/query_configuration.html无论Table API和SQL查询的输入是有界批处理输入还是无界流输入,其语义都相同。在许多情况下,对流输入的连续查询能够计算...翻译 2020-03-02 13:13:25 · 5317 阅读 · 0 评论 -
Table Api & SQL连续查询Join
该文章主要是对Flink官网相关内容进行翻译,原文地址:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/streaming/time_attributes.htmlJoin是批处理数据处理中常见且易于理解的操作,用于连接两个关系的行。 但是,动态表上的连接语义不太明显甚至令人困惑。在Flink中有几...原创 2020-02-19 13:55:55 · 4680 阅读 · 0 评论 -
Flink Table API & SQL时间属性
该文章主要是对Flink官网相关内容进行翻译,原文地址:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/streaming/time_attributes.htmlFlink能够根据不同的时间概念处理流数据。处理时间是指正在执行相应操作的机器的系统时间(也称为“挂钟时间”)。事件时间是指基于附加...原创 2020-02-18 22:36:43 · 6892 阅读 · 0 评论 -
Flink Temporal tables
该文章主要是对Flink官网相关内容进行翻译,原文地址:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/streaming/temporal_tables.html#temporal-table-functions时态表(又称之为临时表)表示改变的历史记录表上的(参数化)视图的概念,该表返回特定时间点...原创 2020-02-18 18:52:18 · 5325 阅读 · 0 评论 -
Flink动态表 (Dynamic Table)
传统的数据库SQL在设计时并未考虑流数据。但是结果,传统的数据库SQL处理与流处理之间在概念上几乎没有差距。本文主要是想说一下Flink动态表的思路。主要是可以类比传统数据库的物化视图。翻译于(官网)原地址:https://ci.apache.org/projects/flink/flink-docs-release-1.9/zh/dev/table/streaming/dynamic_tab...原创 2020-02-12 00:22:16 · 9376 阅读 · 1 评论 -
Flink 1.9 Table API& Sql支持的Data Type
Flink 1.9 Table API & SQL 新特性主要包括如下:全新的 SQL 类型系统:Table API & SQL 1.9 引入了全新的 SQL 的类型系统。以往的Table 层的类型系统复用了 Runtime 的 TypeInformation,但在实际操作过程当中遇到较多的限制。引入全新的 SQL 类型系统可以更好的对齐 SQL 语义。DDL初步支持:这个...原创 2020-02-11 19:37:51 · 8152 阅读 · 0 评论 -
Flink Table API & SQL概念和通用API
官网链接:https://ci.apache.org/projects/flink/flink-docs-release-1.9/zh/dev/table/common.html#register-a-datastream-or-dataset-as-tableTable API & SQL概念和通用APIApache Flink具有两个关系API-Table API和SQL-用于统一...原创 2020-02-10 14:01:18 · 4343 阅读 · 0 评论 -
Flink DataStream中join
窗口Join(Window Join)window join将共享相同key并位于同一窗口中的两个流的元素联接在一起。可以使用窗口分配器定义这些窗口,并根据两个流中的元素对其进行评估。然后将双方的元素传递到用户定义的JoinFunction或FlatJoinFunction,在此用户可以发出满足联接条件的结果。通用用法可总结如下:stream.join(otherStream)...原创 2020-01-15 23:05:17 · 5169 阅读 · 0 评论 -
Flink从入门到项目实践
Flink从入门到项目实践路过的朋友点个赞????呗,好人一身平安!!!https://github.com/perkinls/flink-local-trainApache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,提供支持流处理和批处理两种类型应用的功能。文章会对Flink中基本API如:DataSet、DataStream、Table、Sql和常用特性如:Time&am...原创 2020-01-06 23:10:45 · 4664 阅读 · 0 评论 -
Flink中Time&Window
Time更多代码案例可参考:https://github.com/perkinls/flink-local-trainFink支持的Time类型Flink在流式传输程序中支持不同的时间概念。处理时间(Processing time)处理时间是指正在执行相应操作的机器的系统时间。当流式程序按处理时间运行时,所有基于时间的操作(如时间窗口)都将使用运行相应操作员的计算机的系统时钟。每小时处理...原创 2020-01-04 15:08:23 · 4472 阅读 · 0 评论 -
Flink触发器Triggers
触发器(Triggers)触发器确定窗口(由窗口分配器形成)何时准备好由窗口功能处理。每个WindowAssigner都带有一个默认触发器。如果默认触发器不适合您的需求,则可以使用trigger(...)指定自定义触发器。trigger触发器接口有五个方法允许trigger对不同的事件做出反应: onElement()进入窗口的每个元素都会调用该方法。 onEventTim...原创 2020-01-02 13:24:41 · 5344 阅读 · 0 评论 -
Flink分布式缓存与累加器
分布式缓存Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,并把它放在taskmanager节点中,防止task重复拉取。此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment注册缓存文件并为它起一个名称。当程序执行,Flink自动将文件或者目录复制到所有tas...原创 2019-12-30 13:23:14 · 4364 阅读 · 0 评论 -
flink入门到项目(完整教程)
对flink知识点进行简单梳理,及每个功能点的代码实现。本地运行只需要更改/resource/conf下的配置信息,可直接运行。路过的大老爷们,点个星呗(你们的赞是我坚持写下去的动力!!) 项目持续更新中。。。https://github.com/perkinls/flink-local-train1.知识点梳理 DataStream Api 代码实现及相关文档 Dat...原创 2019-06-18 19:41:33 · 39584 阅读 · 18 评论 -
flink入门-编程模型及核心概念
简要记录学习flink,详细参考官网http://flink.apache.org/核心概念概述Flink程序是实现分布式集合转换的常规程序(例如,filtering, mapping, updating state, joining, grouping, defining windows, aggregating)。最初从源创建集合(例如,by reading from files,...原创 2019-04-11 22:38:54 · 4324 阅读 · 0 评论 -
Flink入门
Flink是什么Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,提供支持流处理和批处理两种类型应用的功能。Flink特点 现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型:流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理 Flink是完全支持流处理,也就是说作为流处理看待时输入数据流是无界的...原创 2019-04-10 10:55:52 · 4324 阅读 · 0 评论