Spark十六 Spark Streaming之转化操作，输出操作，输入源

最新推荐文章于 2022-01-14 18:37:18 发布

ThisIsNobody

最新推荐文章于 2022-01-14 18:37:18 发布

阅读量645

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42129080/article/details/80954080

版权

Spark 专栏收录该内容

36 篇文章 0 订阅

订阅专栏

1 转化操作

> 无状态转化操作：每个批次的处理不依赖之前批次的数据

> 有状态转化操作：使用之前批次的数据或者中间结果计算当前批次的数据

(1) 基于滑动窗口的有状态转化操作

> 以一个时间阶段进行操作

> 窗口时长和滑动步长，是批次间隔的整数倍

(2) 追踪状态变化的转化操作

> updateStateByKey()：跟踪每个键的状态变化

2 输出操作

> 对流数据经转化操作后的数据执行操作

> print()，输出每个RDD的前十个元素

> foreachRDD()对每个RDD执行计算

3 输入源

> 核心数据源

(1) 文件流

(2) Akka actor流

> 附加数据源

(1) Kafka

(2) Flume

> 多数据源与集群规模

(1) union()/join()/cogroup()合并或聚合数据源

(2) 接收器在集群运行

> 每个接收器都以Spark执行器程序中一个长期运行的任务运行，会占用分配给应用的核心

> 需要可用的CPU核心处理数据，运行多个接收器，需要由多个核心，加上运算需要的核心

> 例如，CPU核心数至少等于接收器个数 + 1

> 所以在Spark Streaming中，不要使用"local"/"local[1]"，这样只会分配一个CPU核心给任务，至少使用"local[2]"

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark十六 Spark Streaming之转化操作，输出操作，输入源

1 转化操作 &gt; 无状态转化操作：每个批次的处理不依赖之前批次的数据 &gt; 有状态转化操作：使用之前批次的数据或者中间结果计算当前批次的数据 (1) 基于滑动窗口的有状态转化操作 &gt; 以一个时间阶段进行操作 &gt; 窗口时长和滑动步长，是批次间隔的整数倍 (2) 追踪状态变化的转化操作 ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。