Flink概述:带你快速了解Flink

Flink概述

这里只是一个刚开始学习Flink的小白,分享自己的学习历程,部分学习资源来自B站,主要学习和应用PyFlink。有问题可以告诉我哦,大家一起学习进步!



Apache Flink是一种开源的流处理框架和分布式处理引擎,能够高效地处理大规模数据流和批处理任务。它主要用于实时数据处理和分析,支持复杂的事件处理、数据转换和聚合操作。Flink以其高吞吐量、低延迟、容错性和可伸缩性著称,广泛应用于各种需要实时数据处理的领域。

核心目标:数据流上有状态计算

具体说明:Apache Flink是一个框架和分布式处理引擎,用于对无界有界数据流进行有状态计算。


无界和有界数据流

顾名思义,无界和有界数据流的区别主要在于其有无结束。下面进行具体介绍:

无界数据流

  • 定义:没有固定结束标志,数据持续不断地产生和流入系统。
  • 特点:无限性,适用于实施处理。
  • 举例说明:网络实时情感与趋势分析。当你在刷csdn的时候,无论何时点击某种类型的就会源源不断被推荐相同类型的内容。

有界数据流

  • 定义:数据集是有限的,有开始和结束点。
  • 特点:有限性,适用于批处理。
  • 举例说明:对一个现有文档中的词频进行统计,此时数据包含在该文档内,读取并处理完成后结束。

状态存储

  1. 状态存在内存中

    • 优点:速度快
    • 缺点:可靠性差
  2. 状态存在分布式系统中

    • 优点:可靠性高
    • 缺点:速度慢

Flink特点

  1. 高吞吐是低延迟

    每秒处理百万个事件,毫秒级延迟。

  2. 结果的准确性

    Flink提供了事件时间处理时间的语义,确保数据处理的准确性和精确性。

  3. 状态一致性保证

    Flink具有强大的状态管理机制,通过分布式快照和容错机制,确保数据处理的一致性和准确性。

  4. 可以连接到最常用的存储系统,如HDFS等

  5. 高可用

    支持自动故障恢复和人物重新调度,确保系统在出现故障时已然稳定运行。

顺便提一下,Flink与spark的不同点在于,spark以批处理为根本,而Flink以流处理为根本。


Flink分层API

在这里插入图片描述

  • 10
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值