computer工程师
码龄6年
关注
提问 私信
  • 博客:12,746
    12,746
    总访问量
  • 27
    原创
  • 78,178
    排名
  • 125
    粉丝
  • 0
    铁粉

个人简介:保持热爱,奔赴星海

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:新疆
  • 加入CSDN时间: 2019-06-26
博客简介:

tiger_ziren的博客

查看详细资料
  • 原力等级
    当前等级
    2
    当前总分
    130
    当月
    0
个人成就
  • 获得233次点赞
  • 内容获得0次评论
  • 获得223次收藏
创作历程
  • 27篇
    2024年
成就勋章
TA的专栏
  • flink学习
    22篇
兴趣领域 设置
  • 大数据
    hadoophivesparkkafkaflink
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink 状态精准一次性特性

待补充。
原创
发布博客 2024.10.23 ·
581 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Flink-运行架构

flink 运行四大组件
原创
发布博客 2024.10.10 ·
462 阅读 ·
6 点赞 ·
0 评论 ·
4 收藏

Flink-数据源(后续补充完善)

其他与上述相同。一旦。
原创
发布博客 2024.09.25 ·
701 阅读 ·
19 点赞 ·
0 评论 ·
22 收藏

Flink-算子-Full Window Partition

DataStream 上的全窗口分区处理DataStream 上使用全窗口分区处理 API。Flink 现在支持键控(key)和非键控 (not key)DataStream。表示将每个 subtask(子任务) 的所有记录分别收集到一个完整的窗口中。支持aggregate和reduce四个 API。注意:有关全窗口分区处理的设计和实现的详细信息,请参阅提案和设计文档。
原创
发布博客 2024.09.24 ·
318 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

Flink-算子-Process Function

是一个可以看作是一个 FlatMapFunction,可以访问和。它通过为输入流中接收的每个事件(数据)调用来处理事件。对于允许访问 Flink 的,可,类似于其他有状态函数访问 keyed state 的方式。允许应用程序对和的变化做出反应。Context。可用于为将来的事件/处理时间 Moment 注册回调。对于计时器,当前,将调用方法,而对于计时器,当挂钟时间时,将调用在该调用期间,所有状态的作用域再次限定为创建计时器时使用的键,从而允许计时器操作键控状态。
原创
发布博客 2024.09.24 ·
893 阅读 ·
22 点赞 ·
0 评论 ·
24 收藏

Flink-算子-Joining

Windows join
原创
发布博客 2024.09.24 ·
696 阅读 ·
13 点赞 ·
0 评论 ·
31 收藏

shell(后续会格式化)

atguigu@hadoop101 shells]$ cat cut.txt |grep guan | cut -d " " -f 1 ## 打印出,cut.txt中存在“guan”的行数据,然后按照空格进行切分,获取切分后第一列的数据。[atguigu@hadoop101 shells]$ echo $PATH | cut -d ":" -f 3- ## 按照冒号进行切分,获取第3个(包含第3个)后的所有数据,用 3-表示。
原创
发布博客 2024.09.24 ·
476 阅读 ·
5 点赞 ·
0 评论 ·
8 收藏

Flink-算子-窗口

窗口(Window)是的。窗口可以将数据流。本文的重心将放在 Flink 如何进行窗口操作以及开发者如何尽可能地利用 Flink 所提供的功能。下面展示了 Flink 窗口在keyed和non-keyed上使用的基本结构。我们可以看到,这两者唯一的区别仅在于:keyed streams 要调用keyBy(...)后再调用, 而non-keyed streams 只用直接调用。留意这个区别,它能帮我们更好地理解后面的内容Java/Scala上面方括号([…])中的命令是可选的。
原创
发布博客 2024.09.19 ·
217 阅读 ·
6 点赞 ·
0 评论 ·
4 收藏

Flink-算子

用户通过算子能将一个或多个 DataStream 转换成新的 DataStream,在应用程序中可以将多个数据转换算子合并成一个复杂的数据流拓扑。这部分内容将描述 Flink DataStream API 中,数据转换后各种,以及。
原创
发布博客 2024.09.18 ·
1006 阅读 ·
31 点赞 ·
0 评论 ·
20 收藏

Flink-数据类型以及序列化

数据类型以及序列化
原创
发布博客 2024.09.18 ·
813 阅读 ·
20 点赞 ·
0 评论 ·
13 收藏

Flink-Checkpointing

Flink 中的每个方法或算子都能够是(阅读了解更多)。状态化的方法在处理单个 元素/事件 的时候存储数据,让状态成为使各个类型的算子更加精细的重要部分。,Flink 需要。Checkpoint 使得 Flink 能够恢复状态和在流中的位置,从而向应用提供和无故障执行时一样的语义。
原创
发布博客 2024.09.18 ·
608 阅读 ·
16 点赞 ·
0 评论 ·
6 收藏

Flink -Broadcast State 模式

假设存在一个序列,序列中的元素是具有不同颜色与形状的图形,我们希望在序列里相同颜色的图形中寻找满足一定顺序模式的图形对(比如在红色的图形里,有一个长方形跟着一个三角形)。所以为了保证 broadcast state 在所有的并发实例中是一致的,我们在处理广播流元素的时候给予写权限,在所有的 task 中均可以看到这些元素,并且要求对这些元素处理是一致的, 那么最终所有 task 得到的 broadcast state 是一致的。在增大并发的情况下,task 会读取本身的 state,多出来的并发(
原创
发布博客 2024.09.18 ·
986 阅读 ·
26 点赞 ·
0 评论 ·
30 收藏

Flink-状态与容错(了解 Flink 用于编写有状态程序的 API)

如果你希望使用 keyed state,首先需要为DataStream指定 key(主键)。这个主键用于状态分区(也会给数据流中的记录本身分区)。你可以使用DataStream中 Java/Scala API 的或者是 Python API 的来指定 key。它将生成,接下来允许使用 keyed state 操作。Key selector 函数接收单条记录作为输入,返回这条记录的 key。该 key 可以为任何类型,但是它的计算产生方式是具备确定性的。下面的例子展示了 key selector 函数。
原创
发布博客 2024.09.14 ·
776 阅读 ·
15 点赞 ·
0 评论 ·
20 收藏

Flink-用户自定义 Functions

(此处是计数器。
原创
发布博客 2024.09.14 ·
780 阅读 ·
20 点赞 ·
0 评论 ·
19 收藏

flink -故障恢复(后续补充完善)

执行模式下,Flink 会尝试并回溯到之前的中间结果仍可获取的处理阶段。只有失败的任务(或它们在图中的前辈)才可能需要重新启动。这与从 checkpoint 重新启动所有任务相比,可以提高作业的处理效率和整体处理时间。Checkpointing 用于故障恢复的特点之一是,在发生故障时,Flink 会从 checkpoint 重新启动所有正在运行的任务。模式下所要做的事情代价更高(如下文所解释),这也是如果你的任务允许的话应该使用。执行模式下,Flink 使用 checkpoints 进行故障恢复。
原创
发布博客 2024.09.13 ·
284 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Flink-Watermarks的一些理解

方面,Flink 的流运行时间建立在一个事件(一个一个的事件)可能是乱序到来的悲观假设上的,即一个时间戳。下,数据是已知的,可以按照时间戳对元素进行排序,从而按照时间顺序进行处理。对于熟悉流的读者来说,在。为了摊平这种失序性对最终结果的影响,同时使系统实用,在。因为如此,系统永远无法确定在给定的时间戳。中,我们可以假设”完美的 Watermark“。模式下,Flink 使用了一种名为。的事件可能会在一个时间戳。的水印标志着再没有时间戳。下,未来不会再有时间戳。flink官网:在支持。
原创
发布博客 2024.09.13 ·
212 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

Flink-执行模式(流/批)

不管流模式亦或者是批模式,采取统一的处理方式(大部分的API两者都适用);如果适用批(BACH)模式,Flink 可以对有边界作业进行额外的优化。例如,可以使用不同的关联(join)/ 聚合(aggregation)策略、不同 shuffle 实现来提高任务调度和故障恢复的效率。批模式一般用于处理已知输入、不会连续运行的任务;流模式一般用于处理连续的无界数据;
原创
发布博客 2024.09.13 ·
297 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Flink-控制延迟

默认情况下,元素不会在网络上一一传输(这会导致不必要的网络传输),而是被缓冲。缓冲区的大小(实际在机器之间传输)可以在 Flink 配置文件中设置;但是此种方式也会有延迟问题,当数据写入缓冲区过慢,会导致延迟问题;方法来设置缓冲区填满的最长等待时间。超过此时间后,即使缓冲区没有未满,也会被自动发送。超时时间的默认值为 100 毫秒。
原创
发布博客 2024.09.13 ·
219 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

Flink- Data Sinks

flink DataStream 通过Data sinks 将它们转发到文件、套接字、- 将元组写成逗号分隔值文件。行和字段的分隔符是可配置的。每个字段的值来自对象的。方法调用的自定义实现也可以参与 Flink 的 checkpointing,以实现。可选地,可以提供一个前缀(msg)附加到输出。如果并行度大于1,输出结果将附带输出任务标识符的前缀。支持自定义 object 到 byte 的转换。- 在标准输出/标准错误流上打印每个元素的。注意,DataStream 的。
原创
发布博客 2024.09.13 ·
182 阅读 ·
3 点赞 ·
0 评论 ·
1 收藏

Flink-DataSource

【代码】Flink-DataSource。
原创
发布博客 2024.09.13 ·
264 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏
加载更多