41.四种数据交换策略:向前传播、按Key分组、广播、随机
42.Flink的核心组件——JobManager、ResourceManager、TaskManager、Dispacher
43.Dispacher接收多个作业,进行数据的分发
44.TaskManager是真正执行计算任务的节点ResourceManager管理T资源还要协调J资源
45.有了EventTime时间戳,我们还必须生成Watermark,Watermark是Flink插入到数据流中的一种特殊的数据结构,它包含一个时间戳,并假设后续不会有小于该时间戳的数据
46.Flink的组件栈分为4层:部署层、运行时层、API层和上层工具
47.算子链:将相近的算子子任务链接在一起,链接后以任务的形式被TaskManager调度执行,可以降低算子子任务之间的传输开销
48.Flink允许开发者手动配置是否启用算子链
49.实际应用中一般根据输入数量的大小、计算资源的多少等多方面因素来设置并行度
50.在操作系统层面,进程是进行资源分配和调度的一个独立单位,线程是CPU调度的基本单位