Flink中richfunction的一点小作用

①传递参数
所有需要用户定义的函数都可以转换成richfunction,例如实现map operator中你需要实现一个内部类,并实现它的map方法:

data.map (new MapFunction<String, Integer>() {
  public Integer map(String value) { return Integer.parseInt(value); }
});

然后我们可以将其转换为RichMapFunction:

data.map (new RichMapFunction<String, Integer>() {
  public Integer map(String value) { return Integer.parseInt(value); }
});

当然,RichFuction除了提供原来MapFuction的方法之外,还提供open, close, getRuntimeContext 和setRuntimeContext方法,这些功能可用于参数化函数(传递参数),创建和完成本地状态,访问广播变量以及访问运行时信息以及有关迭代中的信息。
下面我们来看看RichFuction中传递参数的例子,以下代码是测试RichFilterFuction的例子,基于DataSet而非DataStream。
这里写图片描述
由代码可见,可以将Configuration中的limit参数的值传递进RichFuction里面,通过后面withParameters方法传递进去,最后的结果是这里写图片描述
由此可见,我从configuration中获取了limit的值,并设定了fliter的阈值是2,从而过滤了1,2。
②传递广播变量,原理和上面差不多,下面我直接把代码贴出来:
这里写图片描述
这是目前我学习到的RichFunction的用法,和大家分享一下。

  • 7
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
Flink,水位线(Watermark)是一种用于处理无界流数据的机制,用于标记事件时间(EventTime)流的进度。水位线用于告诉系统事件时间已经到达了哪个点,从而触发一些操作。水位线的作用主要包括以下几个方面: 1. 用于触发窗口计算。在Flink,窗口(Window)是一种用于处理无界流数据的机制,通常需要指定窗口的起始时间和结束时间。水位线用于确定窗口的结束时间,从而触发窗口计算。 2. 用于处理乱序数据。在实际应用,事件时间可能存在乱序,即事件的时间戳不严格递增。水位线用于处理乱序数据,根据水位线的进度来判断是否可以触发窗口计算。 3. 用于处理迟到数据。在实际应用,事件时间可能存在迟到数据,即事件的时间戳晚于水位线的时间戳。水位线可以用于处理迟到数据,将迟到数据发送到Late数据流,从而保证窗口计算结果的正确性。 4. 用于优化计算性能。在Flink,水位线可以通过调整水位线的间隔和延迟等方式来优化计算性能。例如,可以通过设置水位线的延迟来减少触发窗口计算的次数,从而提高计算性能和效率。 总之,水位线是Flink非常重要的一部分,对于保证事件时间的正确性和窗口计算的正确性都有着重要的作用。在设计和编写Flink应用程序时,应该充分考虑水位线的使用,合理地设置水位线参数和策略,从而保证应用程序的正确性和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值