Spark Streaming实时处理TCP Sockets数据流

本文档介绍了如何使用Spark Streaming从TCP Sockets接收实时数据流。首先,构建了一个模拟器生成网络数据,然后在Spark Streaming应用程序中,以集群模式在node01上运行,每5秒统计从node02的9999端口接收到的文本数据流中的单词计数。模拟器和分析器被打包并部署到相应节点,确保了所有必要的依赖项。模拟器每秒在指定端口发送数据,而Spark Streaming程序则对其进行处理。
摘要由CSDN通过智能技术生成

1.构建模拟器,模拟网络环境下的数据流;
2.编辑Spark Streaming应用程序,在node01提交以集群模式运行,获取node02上端口9999中的文本数据流,并每隔5s对数据流中各单词的个数进行统计。

演示文档

//*******************模拟器******************
package spark

import java.io.{PrintWriter}
import java.net.ServerSocket
import java.util.Random
import scala.io.Source

object SocketSimulation {
   
  //随机抓取文档中的数据,在设置的端口输出
  def index(length: Int)={
    val rdm = new Random
    rdm.nextInt(length)
  }

  def main(args:Array[String]): Unit ={
    if(args.length!=3){
      System.err.println("Usage:<filename> <port> <millisecond>")
      System.exit(1)
    }

    val filename = args(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值