-
datastream的keyby是按当前key的hashcode对数据重新分区
-
stream输出前面的4>代表当前并行执行的线程编号,也可以认为是真分布式时对应的分区编号
-
可以用flink自带的ParameterTool提取配置项
-
bin目录里的flink文件功能是:启动集群后,所有命令行操作都能用它
-
jobmanager
-
taskmanager向resourcemanager注册slot数量,每个taskmanager都是一个JVM进程,resourcemanager管理slot,还可以和外部交互,如K8S,YARN
-
任务提交流程
-
并行子任务必须分开,如图里的source;先后发生的子任务可以共享一个slot,如source和windows。每个子任务是一个线程
-
可以通过设置共享组.slotSharingGroup(“name”)来让不同顺序的子任务,占单独的slot,不设置的话默认在default共享组里
-
从代码到执行图的过程
-
为什么在DAG里看到有些任务合并(同一个共享组才能合并)了,比如source和map。
-
flatmap和keyby涉及到重分区操作,不是one-to-one,所以不能合并,
flink学习笔记1—基础和架构
最新推荐文章于 2024-10-31 13:24:18 发布