SparkStreaming自定义采集器

最新推荐文章于 2022-11-24 18:54:26 发布

菜鸟也学大数据

最新推荐文章于 2022-11-24 18:54:26 发布

阅读量295

点赞数

分类专栏：菜鸟也学大数据 Spark 文章标签： spark 大数据 Streaming

本文链接：https://blog.csdn.net/weixin_38468167/article/details/111478894

版权

菜鸟也学大数据同时被 2 个专栏收录

167 篇文章 14 订阅

订阅专栏

Spark

30 篇文章 1 订阅

订阅专栏

实现自定义采集器类

import java.io.{BufferedReader, InputStreamReader}
import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.receiver.Receiver

class MyReceiver(host:String,port:Int) extends  Receiver[String](StorageLevel.MEMORY_ONLY){
  var socket:java.net.Socket=null
  def receive(): Unit = {
    socket = new java.net.Socket(host,port)
    val reader = new BufferedReader(new InputStreamReader(socket.getInputStream,"UTF-8"))
    var line:String=null
	
    while((line=reader.readLine())!=null){
      if(line.equals("end")){
        return
      }else{
        this.store(line)
      }
    }
  }

  override def onStart(): Unit = {
    new Thread(new Runnable {
      override def run(): Unit = {
        receive()
      }
    }).start()
  }

  override def onStop(): Unit = {
      if(socket!=null){
        socket.close()
        socket=null
      }
  }
}

object MyReceiver{
  def main(args: Array[String]): Unit = {
    val sparkconf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("myreceiver")
    val context = new StreamingContext(sparkconf,Seconds(5))
    val receiverStream: ReceiverInputDStream[String] = context.receiverStream(new MyReceiver("192.168.**.**",7777))

    val line: DStream[String] = receiverStream.flatMap(line=>line.split("\\s+"))
    val wordStream: DStream[(String, Int)] = line.map((_,1))
    val reduceStream: DStream[(String, Int)] = wordStream.reduceByKey(_+_)

    receiverStream.print()

    context.start()
    context.awaitTermination()
  }
}

启动SparkStreaming

在这里插入图片描述

启动端口

启动命令：：nc -lk 7777
输入数据：

hello spark
hello world
hello java
hello spark

在这里插入图片描述
查看SparkStreaming输出数据

菜鸟也学大数据

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
SparkStreaming自定义采集器

实现自定义采集器类import java.io.{BufferedReader, InputStreamReader}import org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds
复制链接

扫一扫

专栏目录