Spark3.2教程(八)一个简单的Spark Streaming处理网络流数据

        MapReduce及Spark批处理、Spark SQL只能进行离线计算,无法满足即时性业务需求,如实时推荐、实时网站性能分析等。
        流式计算可以解决这些问题,目前有三种比较常用的流式计算框架,它们分别是Storm,Spark Streaming和Flink。
        Spark Streaming原理是接受实时传入的数据流,然后将数据按批次(batch)进行划分,然后再将这部分数据交由Spark引擎进行处理,处理完成后将结果输出到外部。
        下面使用一个简单的例子来展示。
        在一台Linux电脑上通过NetCat实现网络流发送单词数据,Spark Streming与NetCat进程通信,读取到单词后,就进行词频分析,并在控制台上输出。

一、首先在一台虚拟机(hp301)上打开NetCat,绑定端口号为9999,作为SocketServer

nc -lk 9999

二、在IDEA中,首先引入Spark Streaming依赖:

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.13</artifactId>
    <version>3.2.0</version>
</dependency>

三、编写代码,Spark Streaming是作为Socket的客户端获取Server端数据

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext._
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.internal.Logging


object TestStreming extends Logging{
  def main(args: Array[String]) {

    val log4jInitialized = Logger.getRootLogger.getAllAppenders.hasMoreElements
    if (!log4jInitialized) {
      // We first log something to initialize Spark's default logging, then we override the
      // logging level.
      logInfo("Setting log level to [WARN] for streaming example." +
        " To override add a custom log4j.properties to the classpath.")
      Logger.getRootLogger.setLevel(Level.WARN)
    }    // Create the context with a 1 second batch size
    val sparkConf = new SparkConf().setAppName("NetCatWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(1))

    // Create a socket stream on target ip:port and count the
    // words in input stream of \n delimited text (eg. generated by 'nc')
    // Note that no duplication in storage level only for running locally.
    // Replication necessary in distributed scenario for fault tolerance.
    //创建SocketInputDStream,接收来自ip:port发送来的流数据
    val lines = ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY_AND_DISK_SER)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_+_)
    wordCounts.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

四、测试
在netcat中输入单词,并逐行发送。
在这里插入图片描述
运行程序,并设定运行参数为IP地址和端口号
在这里插入图片描述

在IDEA的控制台中可见分析后的结果。
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值