SparkStreaming 介绍及 wordcount 案例

最新推荐文章于 2022-05-24 11:15:21 发布

火成哥哥

最新推荐文章于 2022-05-24 11:15:21 发布

阅读量457

点赞数

分类专栏： spark 文章标签： spark 大数据 java spark streaming scala

本文链接：https://blog.csdn.net/a1786742005/article/details/108032734

版权

本文介绍了Spark Streaming的基本概念，包括其作为流处理框架的角色，DStream的定义，以及它如何通过RDD序列实现流处理。此外，通过一个具体的WordCount案例，详细阐述了如何设置Spark Streaming接收来自netcat的输入数据，进行单词计数，并解释了DStream操作和计算过程。

摘要由CSDN通过智能技术生成

一、介绍

1、Spark Streaming 是什么？
Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 进行运算，而结果也能保存在很多地方，如 HDFS，数据库等。
在这里插入图片描述
2、DStream
和 Spark 基于 RDD 的概念很相似，Spark Streaming 使用离散化流(discretized stream)作为抽象表示，叫作 DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而 DStream 是由这些 RDD 所组成的序列(因此得名“离散化”)。所以简单来讲，DStream 就是对 RDD 在实时数据处理场景的一种封装。

3、Spark Streaming 结构图
在这里插入图片描述

在这里插入图片描述

二、wordcount 案例

1、介绍
使用 netcat 工具向 9999 端口不断的发送数据，通过 SparkStreaming 读取端口数据并统计不同单词出现的次数。

2、添加 maven 依赖

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.12</artifactId>

最低0.47元/天解锁文章

火成哥哥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming 介绍及 wordcount 案例

一、介绍1、Spark Streaming 是什么？Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 进行运算，而结果也能保存在很多地方，如 HDFS，数据库等。2、DStream和 Spark 基于 RDD 的概念很相似，Spark Streaming 使用离散化流(discretized stream)作为抽象表示，叫作
复制链接

扫一扫

专栏目录