Spark Streaming保存计算状态

VIP文章不懂开发的程序猿

已于 2024-05-18 12:04:41 修改

阅读量471

点赞数

分类专栏： Spark 文章标签： spark 大数据分布式

于 2022-07-03 10:46:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44807756/article/details/125581864

版权

Spark Streaming保存计算状态

一、实验目的
二、实验内容
三、实验原理
四、实验环境
五、实验步骤

⚠申明：未经许可，禁止以任何形式转载，若要引用，请标注链接地址。全文共计3829字，阅读大概需要10分钟
🌈更多学习内容，欢迎👏关注👀【文末】我的个人微信公众号：不懂开发的程序猿
⏰个人网站：https://jerry-jy.co/

❗❗❗知识付费，🈲止白嫖，有需要请后台私信或【文末】个人微信公众号联系我

一、实验目的

掌握 DStream数据累加函数updateStateByKey。
掌握 DStream数据累加函数mapWithState。

二、实验内容

1、每5秒钟计算一次每个单词出现的累加数量。（使用Socket数据源）

三、实验原理

在DStream中支持跨批次数据执行计算时保持任意状态。在Spark第一代流处理(Spark Streaming)中，这需要手工实现。

四、实验环境

硬件：x86_64 ubuntu 16.04服务器
软件：JDK 1.8，Spark-2.3.2，Hadoop-2.7.3

五、实验步骤

5.1 启动Spark集群

1、在终端窗口下，输入如下命令，启动Spark集群：

1.	$ start-dfs.sh
2.	$ cd /opt/spark
3.	$ ./sbin/start-all.sh

2、启动spark-shell。在终端窗口下,输入如下命令（注意：以下命令中的localhost，请换成你自己虚拟机实际的机器名）：

1.	$ spark-shell --master spark://localhost:7077

3、另打开一个终端窗口，键入以下命令，启动Socket服务器：

1.	$ nc -lp 9999

5.2 使用updateStateByKey函数，每5秒钟计算一次每个单词出现的累加数量

1、updateStateByKey 解释:
以DStream中的数据进行按key做reduce操作，然后对各个批次的数据进行累加。在有新的数据信息进入或更新时。能够让用户保持想要的不论什么状。使用这个函数需要两步：
1) 定义状态：可以是随意数据类型；
2) 定义状态更新函数：用一个函数指定怎样使用先前的状态。从输入流中的新值更新状态。
下面的实验代码使用updateStateByKey(newUpdateFunc)函数计算每5秒钟单词出现的累加数量。
请在spark-shell的paste模式下，输入以下代码：</

最低0.47元/天解锁文章

不懂开发的程序猿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark Streaming保存计算状态

掌握 DStream数据累加函数updateStateByKey。掌握 DStream数据累加函数mapWithState。1、每5秒钟计算一次每个单词出现的累加数量。（使用Socket数据源）在DStream中支持跨批次数据执行计算时保持任意状态。在Spark第一代流处理(Spark Streaming)中，这需要手工实现。硬件：x86_64 ubuntu 16.04服务器软件：JDK 1.8，Spark-2.3.2，Hadoop-2.7.31、在终端窗口下，输入如下命令，启动Spark集群：
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不懂开发的程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。