flink核心思想

1 窗口

Flink设计的目标是为了满足实时计算,这里的实时计算指的是流式处理。

流式处理的得名是说数据像水流一样,从源头源源不断的发送到下游,是真正意义上的实时,更接近数据发生的真实情况。

流式处理是区别于微批,spark是微批,是区别于批处理。所以从离线到实时计算,处理的粒度为批处理(离线)、微批处理(实时)、流处理(实时计算)。根据数据处理的粒度,选择合适的计算方式。

Flink是流式处理,为了满足某些应用场景需要将数据分成一批一批处理添加了窗口的概念。

窗口和watemark结合使用可以处理乱序数据。

2 无窗口

Flink不添加窗口是真正意义上的流式处理,来一条数据处理一条。

Flink应对流式处理数据并发较高的情况下,也做了优化,保证即使高并发情况也不会导致任务失败。

3 Flink技能点说明

  • 状态使用Valuestate
    • 将窗口和窗口之间产生联系
    • 举例:窗口累计统计,使用状态值保存
  • 状态后端Statebackend
    • 将中间过程缓存的数据转移到别的地方存储,降低flink自身内存压力
    • 也可以将状态放入状态后端存储,flink程序从状态后端中取值
  • 检查点Checkpoint
    • 检查点用于容错机制,任务重启时从检查点恢复,避免数据重复计算
    • flink-kafka,利用kafka的特性,可以实现端到端的一致性
  • 水印Waterark
    • 触发窗口关闭,释放数据
    • watermark是一个时间戳
  • 定时器OnTimer
    • 避免窗口时间过长,添加定时器触发计算,一种计算机制
  • 触发器Trigger
    • 触发器决定了一个窗口何时可以被窗口函数处理,条件满足时触发并发出信号
    • 每一个WindowAssigner都有一个默认的触发器,可以通过调用trigger()指定一个自定义触发器
    • 触发器有5个方法允许触发器处理不同事件(Trigger)
      • onElement():每个元素被添加到窗口时调用
      • onElement():当一个已注册的事件时间计时器启动时调用
      • onProcessingTime(): 当一个已注册的处理时间计时器启动时调用
      • onMerge():与状态性触发器相关,当使用session window时,两个触发器对应的窗口合并时,合并两个触发器的状态
      • clear():相应窗口被清除时触发
    • 前三个方法通过返回TriggerResult来决定如何对其调用事件进行操作。该操作可以是以下操作之一
      • CONTINUE:什么也不做
      • FIRE:触发计算
      • PURGE:清除窗口中的数据
      • FIRE_AND_PURGE:触发计算并随后清除窗口中的元素
  • 复杂时间处理CEP
    • 定义CEP规则,过滤出符合CEP规则的数据

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗少说

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值