1.Flink API的层级
越往上越简单,但是控制力度越若,我们一般用DataStream
2.运行模式
可以部署到YARN,MESOS,K8S等资源管理器上,也可以跑在stand-alone上
当部署一个flink,根据并行度等从资源管理器上拿到资源
3.流式和批式代码的基本区别
- 流式keyBy,批式groupby
- 流式要加窗口
- 流式要execute
4.dataset和datastream
dataset有界
datastream无界
但他们都是不可变
5.延迟执行
所有的flink的执行都是延迟执行的,即只有触发execution时才会触发作业,延迟执行可以优化很多内部的流程
6.指定key的三种方式(keyby)
- Tuple
- 字段表达式
- KeySelector
7.指定转换函数
重点是RichMapFunction