![](https://img-blog.csdnimg.cn/32d95b8fdb8c4e4482402a2ee14c9793.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Flink
文章平均质量分 77
Flink
shangjg3
这个作者很懒,什么都没留下…
展开
-
Flink Data Sink
除了使用内置的第三方连接器外,Flink 还支持使用自定义的 Sink 来满足多样化的输出需求。通常情况下,我们都是实现其抽象类 RichSinkFunction,相比于 SinkFunction ,其提供了更多的与生命周期相关的方法。在使用 Flink 进行数据处理时,数据经 Data Source 流入,然后通过系列 Transformations 的转化,最终可以通过 Sink 将计算结果进行输出,Flink Data Sinks 就是用于定义数据流最终的输出位置。如果原来已有文件,则进行覆盖。原创 2023-10-27 10:44:11 · 751 阅读 · 0 评论 -
Flink Data Source
在所有 DataSource 连接器中,使用的广泛的就是 Kafka,所以这里我们以其为例,来介绍 Connectors 的整合步骤。RichParallelSourceFunction 则继承自 AbstractRichFunction,同时实现了 ParallelSourceFunction 接口,所以其除了具有并行度的功能外,还提供了额外的与生命周期相关的方法,如 open() ,closen()。除了内置的数据源外,用户还可以使用 `addSource` 方法来添加自定义的数据源。原创 2023-10-27 10:27:29 · 975 阅读 · 0 评论 -
Flink中的时间和窗口操作
这个集合可以是基于时间的,元素个数的,时间和个数结合的,会话间隙的,或者是自定义的。当用户在进行持续浏览时,可能每时每刻都会有点击数据,例如在活动区间内,用户可能频繁的将某类商品加入和移除购物车,而你只想知道用户本次浏览最终的购物车情况,此时就可以在用户持有的会话结束后再进行统计。当我们想要每100个用户购买行为事件统计购买总数,那么每当窗口中填满100个元素了,就会对窗口进行计算,这种窗口我们称之为翻滚计数窗口(Tumbling Count Window),上图所示窗口大小为3个。原创 2023-10-19 11:49:05 · 701 阅读 · 0 评论 -
Flink Data Transformation
ReScale 这个单词具有重新缩放的意义,其对应的操作也是如此,具体如下:如果上游 operation 并行度为 2,而下游的 operation 并行度为 6,则其中 1 个上游的 operation 会将元素分发到 3 个下游 operation,另 1 个上游 operation 则会将元素分发到另外 3 个下游 operation。当采用 Rebalancing 进行分区平衡时,其实现的是全局性的负载均衡,数据会通过网络传输到其他节点上并完成分区数据的均衡。将数据分发到所有分区上。原创 2023-10-05 12:30:00 · 124 阅读 · 0 评论 -
Flink 运维问题汇总
原因 yarn资源不足了。原创 2023-08-09 15:13:29 · 574 阅读 · 0 评论 -
Flink状态管理与检查点机制
通过检查点机制,Flink 定期在数据流上生成 checkpoint barrier ,当某个算子收到 barrier 时,即会基于当前状态生成一份快照,然后再将该 barrier 传递到下游算子,下游算子接收到该 barrier 后,也基于当前状态生成一份快照,依次传递直至到最后的 Sink 算子上。可以看到此时两次输出中状态实例的 hashcode 是不一致的,代表它们不是同一个状态实例,这也就是上文提到的,一个算子状态是与一个并发的算子实例所绑定的。ListState:存储列表类型的状态。原创 2023-10-04 12:24:24 · 1230 阅读 · 0 评论 -
FlinkSQL 使用
准备工作。原创 2023-09-26 17:56:07 · 652 阅读 · 0 评论 -
Flink 1.14.2 离线安装
1.3在HDFS上创建 flink目录。修改flink-conf.yaml配置。2.1下载并解压编译好的tar包。1.1安装hadoop。原创 2023-08-03 17:23:45 · 231 阅读 · 0 评论