flink
zdkdchao
这个作者很懒,什么都没留下…
展开
-
flink-2.概念-有状态的流式处理
什么是流式处理的传统状态处理思路传统批处理方法是持续收取数据,以时间作为划分多个批次的依据,再周期性地执行批次运算。但假设需要计算每小时出现事件转换的次数,如果事件转换跨越了所定义的时间划分,跨越了批次的时间边界,传统批处理会将中介运算结果带到下一个批次进行计算;除此之外,当出现接收到的事件顺序颠倒情况下,传统批处理仍会将中介状态带到下一批次的运算结果中,这种处理方式也不尽如人意。意思就是,批处理无法做到实时,比如3点-4点,批处理无法保证系统时间3点-4点时接受的数据就是想要的有状态的计算要有原创 2020-10-30 17:17:41 · 501 阅读 · 0 评论 -
flink-社区-1.为什么学习flink
课程目的实时计算流计算风控扩大需求扩大it人员对flink的掌握让更多大数据人员接触flink定义框架:意味着只需要编写业务逻辑分布式计算有状态计算数据流application1. 基础语义{1} stream离线处理一般都会将数据抽象为一个集合,但实时计算,将数据抽象为流,不断地产生、传输、处理。有界:有始有终,有大小无界:由此产生了很多额外的概念,比如trigger{2} state支持有状态计算stateless采集一条、传输一条、处理一条。数据不需要留存在系原创 2020-10-30 12:32:34 · 262 阅读 · 0 评论 -
flink-架构
角色JM划分任务,创建dataflow graph将任务分发到TM管理checkpoint资源分配standloneRM、TM启动时,就已经将slot注册好,所以UI的jar还没提交时就可以显示slot数。yarnworker节点也要装spark、flink,因为要启动executor和TM。executor和TM也是运行在container中的任务调度...原创 2020-10-20 11:43:37 · 129 阅读 · 0 评论 -
flink-任务划分:task和subTask
1原创 2020-10-19 10:43:03 · 1729 阅读 · 2 评论 -
flink
特点同spark区别架构sparkdstreamstructureStreaming微批次,准实时,一批一个task,一个task的生命周期包括生成task、序列化后提交到executor、放到线程池、执行、拉取结果。spark一开始的初心是离线处理,不管离线还是实时sparkstreaming,底层都是sparkcore,sparkstreaming其实就是不断的处理微批次的数据,用批处理的方式来处理流式数据。flink也是在driver生成task,也是放到工作节点的线程池,但只需要提原创 2020-10-19 11:20:02 · 290 阅读 · 0 评论