flink是什么
是一个框架和分布式处理引擎,在无边界和有边界数据流上纪念性有状态的计算
主要特性
1.批流统一
批处理:数据
全部访问完成后进行操作
有界、持久、大量,适合访问全套记录才能完成的工作,一般用于
离线统计
流处理:
来一条数据处理一条数据
无界、实时,不需要操作整个系统
无界流(Datastream):只有开始,没有结束,要以特定的顺序获取,并且获取后立即处理
有界流(DataSet):开始结束都有,数据全部获取后执行,
可以被排序
2.性能卓越
高吞吐:同时处理大量数据
低延时:快速返回结果
3.规模计算
支持超大状态与增量检查点机制
状态:计算过程中需要存储的数据
检查机制:备份
4.生态兼容
支持与yarn集成
支持与kubernetes集成
支持单机模式运行
5.高容错
故障自动重试
一致性检查点
保证故障场景下精确一次的状态一致性
并行度
一个算子的子任务的个数被称为其并行度
包含并行任务的数据流,就是并行数据流
一个流程序的并行度,可以认为就是其所有算子中最大的并行度
设置并行度
stream.map(word -> Tuple2.of(word, 1L)).
setParallelism(2)
或
env.setParallelism(2)</

最低0.47元/天 解锁文章
370

被折叠的 条评论
为什么被折叠?



