SparkStream自定义接收器，完成WordCount

最新推荐文章于 2024-07-25 11:17:10 发布

数据架构师

最新推荐文章于 2024-07-25 11:17:10 发布

阅读量100

点赞数

分类专栏： spark linux scala 文章标签： spark hadoop 大数据

本文链接：https://blog.csdn.net/qq_37587652/article/details/104566546

版权

spark 同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

linux

4 篇文章 0 订阅

订阅专栏

scala

1 篇文章 0 订阅

订阅专栏

SparkStream自定义接收器

需求：自定义接收器，通过Socket完成WordCount案列

1.自定义接收器类

package com.atguigu.bigdata.stream

import java.io.{BufferedReader, InputStreamReader}
import java.net.Socket

import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.receiver.Receiver

/**
 * @author tianmin
 * @date 2020/2/28 0028
 * @notes 自定义接收器，读取Socket端口数据
 */
class MyReceiver(host:String,port:Int) extends Receiver[String](StorageLevel.MEMORY_AND_DISK_2){

  var socket:Socket = _


  def receiver(): Unit ={
    // 初始化socket
    socket = new Socket(host,port)
    // 创建BufferedReader 读取一行
    val reader = new BufferedReader(new InputStreamReader(socket.getInputStream,"utf-8"))
    var line:String = null
    while((line = reader.readLine()) != null){
      if("END".equals(line)){
        return
      }else{
        // 存储数据集
        this.store(line)
      }
    }
  }

  override def onStart(): Unit = {
    new Thread(new Runnable {
      override def run(): Unit = {
        receiver()
      }
    }).start()
  }

  override def onStop(): Unit = {
    if(socket != null){
      socket.close()
      socket = null
    }
  }
}

2.调用

package com.atguigu.bigdata.stream

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * @author tianmin
 * @date 2020/2/28 0028
 * @notes
 */
object StreamWordCountDefine {
  def main(args: Array[String]): Unit = {
    // 配置文件
    val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("StreamWordCountDefine")
    // 初始化StreamingContext
    val streamingContext = new  StreamingContext(config,Seconds(5))

    //通过receiverStream调用
    val myReceiverDstream: ReceiverInputDStream[String] = streamingContext.receiverStream(new MyReceiver("hadoop101",44444))

    val wordDstream: DStream[(String, Int)] = myReceiverDstream.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

    //打印
    wordDstream.print()

    //启动
    streamingContext.start()
    streamingContext.awaitTermination()
  }

}

3.输入数据
在这里插入图片描述

4.输出结果：
在这里插入图片描述

数据架构师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkStream自定义接收器，完成WordCount

SparkStream自定义接收器需求：自定义接收器，通过Socket完成WordCount案列1.自定义接收器类package com.atguigu.bigdata.streamimport java.io.{BufferedReader, InputStreamReader}import java.net.Socketimport org.apache.spark.stora...
复制链接

扫一扫

专栏目录