SPark学习笔记：12 Spark Streaming 的简单应用WordCount

最新推荐文章于 2022-10-06 19:37:58 发布

wangzhongyudie

最新推荐文章于 2022-10-06 19:37:58 发布

阅读量439

点赞数

分类专栏： Spark 文章标签： spark 学习 scala

本文链接：https://blog.csdn.net/wangzhongyudie/article/details/126128028

版权

Spark 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

文章目录

概述
idea开发Spark Streaming应用
可能遇到的报错
总结

概述

Spark Streaming是Spark Core Api的一个扩展，用于流式数据的处理。支持的数据源有很多，例如：Kafka、Flume、Twitter、ZeroMQ、TCP、HDFS/S3等等。数据输入后可以使用Spark的高度抽象原语进行运算。运算完毕后，将结果存放在如HDFS、关系型数据库等等Sink中。

严格意义上来说，SparkStreaming采用的并不是实时的流处理方式(来一条数据处理一条)。如上图所示，spark Streaming将接收的数据流周期性的将数据分为一个个的数据集(可以理解为RDD)，发送给Spark Engine处理。

idea开发Spark Streaming应用

idea新建maven项目，配置scala环境

File–>Project Structure -->Modules，添加scala依赖库

配置pom.xml

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.12</artifactId>
    <version>3.3.0</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.12</artifactId>
    <version>3.3.0</version>
</dependency>

scala源码示例

package com.hjt.yxh.hw.dstream
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

object WordCountStreamApp {

  def main(args: Array[String]): Unit = {
    val conf:SparkConf = new SparkConf()
    conf.setMaster("local[*]").setAppName("DStreamTestApp")
    
    //创建一个StreamingContext
    val ssc:StreamingContext = new StreamingContext(conf,Seconds(3))
    
    //创建一个socket文本流
    val line: ReceiverInputDStream[String] = ssc.socketTextStream("192.168.0.52",8888)
    
    //对接收到的数据进行处理(类似于RDD的转换算子操作，也是懒执行的)
    val sensorDs = line
      .filter(_.nonEmpty)
        .flatMap(data=>{data.split(" ")})
        .map((_,1))
    
    sensorDs.reduceByKey(_+_).print()
    
    //启动streamingContext
    ssc.start()
    
    ssc.awaitTermination()
  }

使用nc工具模拟发送数据

[root@k8s-node3 ~]# nc -l -p 8888
hello world
hello world

滚动输出：

22/08/02 17:50:51 INFO DAGScheduler: Job 6 finished: print at WordCountStreamApp.scala:18, took 0.022961 s

-------------------------------------------
Time: 1659433848000 ms
-------------------------------------------
(world,2)
(hello,2)
-------------------------------------------
Time: 1659433851000 ms
-------------------------------------------

可能遇到的报错

Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf
	at com.hjt.yxh.hw.dstream.WordCountStreamApp$.main(WordCountStreamApp.scala:9)
	at com.hjt.yxh.hw.dstream.WordCountStreamApp.main(WordCountStreamApp.scala)
	at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:64)
	at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.base/java.lang.reflect.Method.invoke(Method.java:564)
	at com.intellij.rt.execution.application.AppMainV2.main(AppMainV2.java:131)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.SparkConf
	at java.base/jdk.internal.loader.BuiltinClassLoader.loadClass(BuiltinClassLoader.java:606)
	at java.base/jdk.internal.loader.ClassLoaders$AppClassLoader.loadClass(ClassLoaders.java:168)
	at java.base/java.lang.ClassLoader.loadClass(ClassLoader.java:522)

因为在官网上拷贝下来的Maven依赖中有provided，记得删掉或者改成compile，然后重新导入，使得更改生效

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.12</artifactId>
    <version>3.3.0</version>
    <!--需要删除，或者更改为compile-->
    <scope>provided</scope>
</dependency>

总结

开发SparkStream应用时有几点需要注意：

在本地开发模式下，不要使用conf.setMaster(“local”)或者conf.setMaster(“local[1]”)这种方式设置Master的url，因为这意味着只有一个线程被启动用来运行任务。如果我们是基于一个receiver的方式来使用一个输入流，意味着这个线程将被用来接收数据，而没有多余的线程来处理接收到的数据。
同样的逻辑，在基于集群运行sparkStream应用时，分配给Spark Streaming 应用的cores的个数，必须大于分配给receiver的cores的个数，否者系统只能接收数据而不能对这些数据进程处理。

wangzhongyudie

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SPark学习笔记：12 Spark Streaming 的简单应用WordCount

Spark Streaming是Spark Core Api的一个扩展，用于流式数据的处理。支持的数据源有很多，例如：Kafka、Flume、Twitter、ZeroMQ、TCP、HDFS/S3等等。数据输入后可以使用Spark的高度抽象原语进行运算。运算完毕后，将结果存放在如HDFS、关系型数据库等等Sink中。严格意义上来说，SparkStreaming采用的并不是实时的流处理方式(来一条数据处理一条)。...
复制链接

扫一扫

专栏目录