SPark学习笔记:12 Spark Streaming 的简单应用WordCount

概述

Spark Streaming是Spark Core Api的一个扩展,用于流式数据的处理。支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ、TCP、HDFS/S3等等。数据输入后可以使用Spark的高度抽象原语进行运算。运算完毕后,将结果存放在如HDFS、关系型数据库等等Sink中。
image

严格意义上来说,SparkStreaming采用的并不是实时的流处理方式(来一条数据处理一条)。如上图所示,spark Streaming将接收的数据流周期性的将数据分为一个个的数据集(可以理解为RDD),发送给Spark Engine处理。

idea开发Spark Streaming应用

idea新建maven项目,配置scala环境

File–>Project Structure -->Modules,添加scala依赖库

配置pom.xml

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.12</artifactId>
    <version>3.3.0</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.12</artifactId>
    <version>3.3.0</version>
</dependency>

scala源码示例

package com.hjt.yxh.hw.dstream
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

object WordCountStreamApp {

  def main(args: Array[String]): Unit = {
    val conf:SparkConf = new SparkConf()
    conf.setMaster("local[*]").setAppName("DStreamTestApp")
    
    //创建一个StreamingContext
    val ssc:StreamingContext = new StreamingContext(conf,Seconds(3))
    
    //创建一个socket文本流
    val line: ReceiverInputDStream[String] = ssc.socketTextStream("192.168.0.52",8888)
    
    //对接收到的数据进行处理(类似于RDD的转换算子操作,也是懒执行的)
    val sensorDs = line
      .filter(_.nonEmpty)
        .flatMap(data=>{data.split(" ")})
        .map((_,1))
    
    sensorDs.reduceByKey(_+_).print()
    
    //启动streamingContext
    ssc.start()
    
    ssc.awaitTermination()
  }

使用nc工具模拟发送数据

[root@k8s-node3 ~]# nc -l -p 8888
hello world
hello world

滚动输出:

22/08/02 17:50:51 INFO DAGScheduler: Job 6 finished: print at WordCountStreamApp.scala:18, took 0.022961 s

-------------------------------------------
Time: 1659433848000 ms
-------------------------------------------
(world,2)
(hello,2)
-------------------------------------------
Time: 1659433851000 ms
-------------------------------------------

可能遇到的报错

  • Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/spark/SparkConf
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf
	at com.hjt.yxh.hw.dstream.WordCountStreamApp$.main(WordCountStreamApp.scala:9)
	at com.hjt.yxh.hw.dstream.WordCountStreamApp.main(WordCountStreamApp.scala)
	at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:64)
	at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.base/java.lang.reflect.Method.invoke(Method.java:564)
	at com.intellij.rt.execution.application.AppMainV2.main(AppMainV2.java:131)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.SparkConf
	at java.base/jdk.internal.loader.BuiltinClassLoader.loadClass(BuiltinClassLoader.java:606)
	at java.base/jdk.internal.loader.ClassLoaders$AppClassLoader.loadClass(ClassLoaders.java:168)
	at java.base/java.lang.ClassLoader.loadClass(ClassLoader.java:522)

因为在官网上拷贝下来的Maven依赖中有provided,记得删掉或者改成compile,然后重新导入,使得更改生效

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.12</artifactId>
    <version>3.3.0</version>
    <!--需要删除,或者更改为compile-->
    <scope>provided</scope>
</dependency>

总结

开发SparkStream应用时有几点需要注意:

  • 在本地开发模式下,不要使用conf.setMaster(“local”)或者conf.setMaster(“local[1]”)这种方式设置Master的url,因为这意味着只有一个线程被启动用来运行任务。如果我们是基于一个receiver的方式来使用一个输入流,意味着这个线程将被用来接收数据,而没有多余的线程来处理接收到的数据。

  • 同样的逻辑,在基于集群运行sparkStream应用时,分配给Spark Streaming 应用的cores的个数,必须大于分配给receiver的cores的个数,否者系统只能接收数据而不能对这些数据进程处理。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值