（10）任意状态操作

最新推荐文章于 2021-09-24 14:37:44 发布

longdada007

最新推荐文章于 2021-09-24 14:37:44 发布

阅读量235

点赞数

本文链接：https://blog.csdn.net/qq_18522601/article/details/96484990

版权

很多使用案例需要比聚合更高级的状态操作。例如，在很多案例中，你必须跟踪来自于事件数据流的会话操作。为了处理这种会话机制，必须存储任意类型的数据作为状态，同时每次触发使用数据流事件对状态做任意的状态操作。从spark2.2开始，可以使用mapGroupsWithState和更强大操作flatMapGroupsWithState。两个操作都允许你对分组的datasets使用自定义代码去更新自定义状态。

mapGroupsWithState

该方法使用紧跟着groupByKey，对每个key的一个group组数据进行处理，同时会保存每个group的状态。结果dataset也传入状态更新函数返回值的封装。对于一个batch dataset，该函数只会为每个分组调用一次。对于streaming dataset ，该函数会在每次trigger的时候触发，同时会更新每个组的状态。

@Experimental
@InterfaceStability.Evolving
def mapGroupsWithState[S, U](
    func: MapGroupsWithStateFunction[K, V, S, U],
    stateEncoder: Encoder[S],
    outputEncoder: Encoder[U],
    timeoutConf: GroupStateTimeout): Dataset[U] = {
  mapGroupsWithState[S, U](timeoutConf)(
    (key: K, it: Iterator[V], s: GroupState[S]) => fun

最低0.47元/天解锁文章

longdada007

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（10）任意状态操作

很多使用案例需要比聚合更高级的状态操作。例如，在很多案例中，你必须跟踪来自于事件数据流的会话操作。为了处理这种会话机制，必须存储任意类型的数据作为状态，同时每次触发使用数据流事件对状态做任意的状态操作。从spark2.2开始，可以使用mapGroupsWithState和更强大操作flatMapGroupsWithState。两个操作都允许你对分组的datasets使用自定义代码去更新自定义状态。...
复制链接

扫一扫