如何在Python Spark Streaming中更新广播变量？

最新推荐文章于 2022-07-13 16:59:16 发布

Rnan-prince

最新推荐文章于 2022-07-13 16:59:16 发布

阅读量445

点赞数

分类专栏： python 大数据 spark 文章标签： python spark spark Streaming broadcast

本文链接：https://blog.csdn.net/qq_19446965/article/details/109064624

版权

python 同时被 3 个专栏收录

125 篇文章 8 订阅

订阅专栏

大数据

29 篇文章 1 订阅

订阅专栏

spark

12 篇文章 0 订阅

订阅专栏

我需要使用Python在Spark Structured Streaming中随时间更新广播变量（例如，在定义的时间间隔内）。好多资料都是用Scala或Java。用Python编写Broadcast Wrapper类如下：

import time
from datetime import datetime
from pyspark import SparkConf, SparkContext

conf = SparkConf() \
    .setMaster("local") \
    .setAppName("My app") \
    .set("spark.executor.memory", "1g")
sc = SparkContext(conf=conf)

TIME_OUT = 1


class BroadcastWrapper(object):
    def __init__(self, data):
        self.broadcast_var = sc.broadcast(data)
        self.last_updated_time = datetime.now()

    def is_should_be_updated(self, data):
        cur_time = datetime.now()
        diff_sec = (cur_time - self.last_updated_time).total_seconds()
        return self.broadcast_var is None or diff_sec > TIME_OUT

    def update_and_get_data(self, spark):
        new_data = ['new data']
        if self.is_should_be_updated(new_data):
            if self.broadcast_var is not None:
                self.broadcast_var.unpersist()
            self.broadcast_var = spark.broadcast(new_data)
            self.last_updated_time = datetime.now()

        return self.broadcast_var


broadcast_wrapper = BroadcastWrapper(["old data"])
time.sleep(3)

for rule in broadcast_wrapper.update_and_get_data(sc).value:
    print(rule)

Rnan-prince

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何在Python Spark Streaming中更新广播变量？

我需要使用Python在Spark Structured Streaming中随时间更新广播变量（例如，在定义的时间间隔内）。好多资料都是用Scala或Java。用Python编写Broadcast Wrapper类如下：import timefrom datetime import datetimefrom pyspark import SparkConf, SparkContextconf = SparkConf() \ .setMaster("local") \ ..
复制链接

扫一扫