Flink
文章平均质量分 68
往事随风_h
感谢互联网,让我在知识的海洋遨游了一年又一年,为了感谢广大网友,我也把所学知识分享,咱们一起进步!
展开
-
已经21世纪了,你还不会使用Flink实时计算topN热榜吗?点进来手把手教学!
大家好,我是往事随风_h。相信大家和我一样,都有一个大厂梦,作为一名大数据工程师,深知计算topN的重要性,废话不多说,接下来我将用案例给大家演示如何计算topN。文章目录1. 用到的知识点2. 案例介绍3. 数据源4. 主要程序==窗口统计====TopN计算最活跃用户====结果输出==TopN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。1. 用到的知识点Flink创建kafka数据源;基于 EventTime 处理,如何指定 Watermark;Flink中的W.原创 2021-07-16 16:52:03 · 1459 阅读 · 55 评论 -
大数据开发-Flink-数据流DataStream和DataSet
Flink主要用来处理数据流,所以从抽象上来看就是对数据流的处理,正如前面大数据开发-Flink-体系结构 && 运行架构提到写Flink程序实际上就是在写DataSource、Transformation、Sink.DataSource是程序的数据源输入,可以通过StreamExecutionEnvironment.addSource(sourceFuntion)为程序添加一个数据源Transformation是具体的操作,它对一个或多个输入数据源进行计算处理,比如Map、Fl.原创 2021-05-12 01:55:24 · 5592 阅读 · 6 评论 -
流式大处理的三种框架对比:Storm,Spark和Flink
storm、spark streaming、flink都是开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,允许你在运行数据流代码时,将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API来简化底层实现的复杂程度。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括spout和.原创 2021-02-19 20:29:02 · 6186 阅读 · 4 评论 -
Flink 实现Locality 模式调度
背景在计算与存储一体化的情况,spark任务在调度task时会优先将其调度在数据所在的节点上或者相同的rack上,这样可以减少数据在不同节点或者不同rack上移动所带来的性能消耗;目前在Flink on yarn模式下,TaskExecutor的资源位置完全由yarn自主控制的,那么就可能会造成任务所在的节点与kafka数据所在的节点不在同一个机房,从而产生跨机房的流量消耗,在这样的一个环境背景下,需要将任务调度在数据所在机房,以减少流量消耗。(注:基于Flink-1.10.1)Flink on Yar原创 2021-02-09 00:53:01 · 5295 阅读 · 0 评论 -
Flink 1.11.2 SQL 读写 MySQL
FlinkSQL读取MySQL大多用作维表关联, 聚合结果写入MySQL,简单记录一下用法。JDBC SQL Connector添加依赖 <groupId>org.apache.flink</groupId> <artifactId>flink-connector-jdbc_2.12</artifactId> <version>1.11.2</version> .原创 2021-02-07 21:22:37 · 2996 阅读 · 0 评论 -
flinkSQL 追加模式(toAppendStream)与缩进模式(toRetractStream)的区别
追加模式(toAppendStream)与缩进模式(toRetractStream)简介使用flinkSQL处理实时数据当我们把表转化成流的时候,需要使用toAppendStream与toRetractStream这两个方法。稍不注意可能直接选择了toAppendStream。这个两个方法还是有很大区别的,下面具体介绍。toAppendStream与toRetractStream的区别:追加模式: 只有在动态Table仅通过INSERT更改修改时才能使用此模式,即它仅附加,并且以前发出的结果永远不会原创 2021-01-29 17:20:32 · 2707 阅读 · 0 评论 -
flink Caused by: java.net.BindException: Could not start rest endpoint on any port in port range 808
问题描述:flink 启动,standalone 模式 StandaloneSessionClusterEntrypoint 进程起不来。解决办法:查看log日志文件org.apache.flink.runtime.entrypoint.ClusterEntrypointException: Failed to initialize the cluster entrypoint StandaloneSessionClusterEn at org.apache.flink.runtime.entry原创 2021-01-19 05:54:25 · 3346 阅读 · 0 评论 -
Flink直击灵魂的面试题,学会这些在面试官面前横着走。
1、Flink 的 抽象层次有几种Stateful stream processingCore APITableSQL2、Window 类型(1)TimeWindowTumbling Window(滚动窗口)Sliding Window(滑动窗口)Session Window(会话窗口)Global Window(全局窗口)(2)countWindow(3)自定义window3、Time 类型Flink 中的时间和其他流式计算系统的时间一样分为三类:事件时间,摄入时间,处理时间三原创 2020-07-22 12:08:23 · 12734 阅读 · 4 评论 -
Flink-有界流与无界流
什么是有界流和无界流?有界流有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。有界流处理通常被称为批处理。有界流,Flink则由一些专为固定大小数据集特殊设计的算法和数据结构进行内部处理,产生了出色的性能。无界流有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的,在任何时候输入都不会完成。处理原创 2020-07-14 19:34:56 · 4611 阅读 · 0 评论