![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flink基础教程
文章平均质量分 82
Flink基础教程
伊生伊士
这个作者很懒,什么都没留下…
展开
-
对时间的处理(四)
1 采用批处理架构和Lambda架构计数 批处理架构 1 数据被分割成一个个文件(例如按小时分割) 2 批处理作业以文件作为输入运行 存在的问题 太多独立的部分 为了计算数据中的事件数,这种架构动用了太多系统。每一个系统都有学习成本和管理成本,还可能存在 bug。 对时间的处理方法不明确 预警 只有批处理作业做不到及时预警,需要引入Strom,增加了复杂性 乱序事件流 实际情况是事件经常乱序,本属于前一批的事件可能被错误地归入当前一批。批处理.原创 2021-05-06 11:06:57 · 131 阅读 · 0 评论 -
Flink的用途(三)
1 不同类型的正确性 1.1 计算窗口和会话窗口 通过点击流追踪网站3个访问者 描述:对于每个访问者来说,活动是不连续的。在访问时间段内,事件数据被收集起来;当访问者起身去喝茶或喝咖啡时,或者当他们因为老板从身边经过而切换回工作页面时,数据就产生了间隙 采用微批处理方法时,很难使计算窗口(虚线所示)与会话窗口(长方形所示)吻合 Flink 的流处理能力能够使计算窗口与会话窗口吻合 1.2 事件时间 事件时间指的是事件发生的时间;处理时间指的是事件流被程序处理的时间 使用事..原创 2021-05-06 11:06:26 · 167 阅读 · 0 评论 -
流处理架构(二)
1 传统架构与流处理架构 传统架构数据是怎么存的 1 一个中心化的数据库系统,拥有“新鲜”(或者说“准确”)的数据,反映了当前的业务状态 2 分布式文件系统则用来存储不需要经常更新的数据 传统数据架构的问题 1 从数据流入到分析流程复杂、缓慢,当出现问题时,不太容易保证系统很好运行 2 分布式文件系统需要保持一致的全局状态,随着系统规模扩大,维持实际数据与状态数据间的一致性变得越来越困难; 流数据结构是怎么样的 没有一个数据库来集中存储全局状态数据,取而代之的是共享且永不停止的流数据,它是唯原创 2021-05-06 11:06:08 · 186 阅读 · 1 评论 -
为何选择Flink(一)
目录 1连续事件处理的目标 2流处理技术的演变 3 初探Flink 4 参考 1连续事件处理的目标 流处理应该具备什么样的特点 低延迟、高吞吐、容错性(能够处理中断,保证 exactly-once) 2流处理技术的演变 在flink出来之前是什么技术 Storm(低延迟但是故障发生时不能准确处理计算状态)、Spark Streaming(高吞吐和容错性,但是牺牲了低延迟和实时处理能力) Storm是怎么样的,有什么问题 1 流处理先锋 2 可以做到低延迟,很难实现高吞吐、不...原创 2021-05-06 11:05:29 · 92 阅读 · 0 评论