flink理论干货笔记(5)

401. 启动检查点,用StreamExecutionEnvironment的enableCheckpointing(n),其中n是检查点间隔

402. 检查点的其他参数包括,至少一次or刚好一次,检查点超时时间,检查点之间的最短时间,并发检查点数,外部化检查点,关于检查点错误是否继续任务

403. 相关配置选项:state.backend(以及更进一步的async即是否用异步快照、fs.memory-threshold即状态数据文件的最小大小、incremental即增量检查点、local-recovery即是否本地恢复)、state.checkpoints.(dir即检查点默认目录、num-retained即已完成检查点最大数量)、state.savepoints.dir即保存点的默认目录

404. 默认情况下,状态保存在TaskManager的内存中,检查点存储在JobManager的内存中。可通过env.setStateBackend()设置状态后台

405. 目前flink迭代作业不支持状态检查点,因为可能会导致异常。但也可以强制进行,需要设置env.enableCheckpointing(…)

406. 查询状态对象时,无需任何同步或复制即可从并发线程访问该对象。可查询状态包含三个实体:QueryableStateClient、QueryableStateClientProxy、QueryableStateServer

407. 要启动可查询状态,需要如flink-queryable-state-runtime_2.11-1.7-snapshot. jar,启动后在TM下会有相关日志

408. 调用asQueryableState,就能得到QueryableStateStream;或者stateDescriptor. setQueryable(…) 也能使状态变得可查询

409. 要使用QueryableStateClient,需要加入依赖项如flink-queryable-state-client-java_2.11

410. 配置好后就能调用getKvState,参数是jobId、queryableStateName、key、keyTypeInfo、stateDescriptor,得到一个CompletableFuture<S> 

411. 注意:查询到的状态(如valueState、mapState、listState等)都是无法修改的

412. QueryableStateOptions的参数配置会影响状态服务器的行为,包括query.server.ports、query. server.network-threads、query.server.query-threads、query. proxy. ports、query. proxy. network-threads、query. proxy. query-threads

413. 状态后台有多种,如MemoryStateBackend、FsStateBackend、RocksDBStateBackend等,可通过env.setStateBackend()来设置 

414. 建议避免使用匿名类作为状态序列化程序,因为它对生成的类名没有保证,在编译器之间有所不同

415. 每次执行检查点时,都会调用snapshotConfiguration方法来创建状态序列化程序配置的时间点视图;ensureCompatibility用来确保序列化程序的兼容性 

416. TypeSerializerConfigSnapshot是所有序列化程序配置snapshot的基类,有getVersion、read、write方法

417. ensureCompatibility用于检查串行器是否兼容、确认序列化程序是否兼容。CompatibilityResult.compatible()表示串行器兼容,CompatibilityResult.requiresMigration()表示串行器不兼容

418. datastream算子分为多种:
DataStream->DataStream的有map、flatmap、filter
DataStream->KeyedStream的有keyBy
KeyedStream->DataStream的有reduce、fold、sum、min、max、minBy、maxBy
KeyedStream-> WindowedStream的有window
DataStream-> AllWindowedStream的有windowAll
WindowedStream-> DataStream的有apply、reduce、fold、sum、min、max、minBy、maxBy
AllWindowedStream-> DataStream的有apply
DataStream*->DataStream的有union
DataStream,DataStream ->DataStream的有join、coGroup
KeyStream,KeyedStream-> DataStream的有intervalJoin
DataStream,DataStream->ConnectedStreams的有connect
ConnectedStreams->DataStreams的有map和flatMap(需分别定义CoMapFunction和CoFlatMapFunction)

419. DataStream->SplitStream的有split;SplitStream->DataStream的有select;
DataStream->IterativeStream->DataStream的有iterate和map;另外assignTimestamps和project也属于DataStream->DataStream

420. datastream支持对转换后的精确流分区控制,包括partitionCustom

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值