![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flink
文章平均质量分 86
flink
大锤哥哥Z
这个作者很懒,什么都没留下…
展开
-
深入浅出Flink-第三章(State、checkpoint、重启)
1 State1.1 state概述Apache Flink® — Stateful Computations over Data Streams回顾单词计数的例子/** * 单词计数 */public class WordCount { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment原创 2021-04-05 23:11:26 · 587 阅读 · 2 评论 -
深入浅出Flink-第一章(简介及简单使用)
1 Flink简介Apache Flink® — Stateful Computations over Data StreamsApache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。1.1 处理无界和有界数据任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录,所有这些数据都形成一种流。数据可以被作为 无界 或者 有界 流来处原创 2020-10-08 19:18:04 · 6925 阅读 · 0 评论 -
深入浅出Flink-第二章(Transformation)
深入浅出Flink第二天1 常见Transformation操作1.1 map和filter/** * 数据源:1 2 3 4 5.....源源不断过来 * 通过map打印一下接受到数据 * 通过filter过滤一下数据,我们只需要偶数 */public class MapDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironment原创 2020-10-08 19:49:34 · 6486 阅读 · 0 评论 -
深入浅出Flink-第四章(waterMark)
1 需求背景需求描述:每隔5秒,计算最近10秒单词出现的次数。1.1 TimeWindow实现/** * 每隔5秒计算最近10秒单词出现的次数 */public class TimeWindowWordCount { public static void main(String[] args) throws Exception{ StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutio原创 2021-04-05 23:21:56 · 259 阅读 · 0 评论 -
深入浅出Flink-第五章(window窗口)
1 Window概述聚合事件(比如计数、求和)在流上的工作方式与批处理不同。比如,对流中的所有元素进行计数是不可能的,因为通常流是无限的(无界的)。所以,流上的聚合需要由 window 来划定范围,比如 “计算过去的5分钟” ,或者 “最后100个元素的和” 。window是一种可以把无限数据切割为有限数据块的手段。窗口可以是 时间驱动的 【Time Window】(比如:每30秒)或者 数据驱动的【Count Window】 (比如:每100个元素)。2 Window类型窗口通常被区分为不同的类原创 2021-04-05 23:40:21 · 273 阅读 · 0 评论 -
深入浅出Flink-第七章(Flink项目实战)
1 实时ETL1.1 需求背景针对算法产生的日志数据进行清洗拆分•1:算法产生的日志数据是嵌套json格式,需要拆分打平•2:针对算法中的国家字段进行大区转换•3:把数据回写到Kafka1.2 项目架构视频网站(抖音),生成日志的时候,他们日志里面是把多条数据合并成一条数据了。1.3 方案设计日志格式:直播平台(是不是国内,但是类似于国内的抖音)处理前:{"dt":"2019-11-19 20:33:39","countryCode":"TW","data":[{"type":"s原创 2021-04-05 23:47:56 · 577 阅读 · 0 评论