1.构建模拟器,模拟网络环境下的数据流;
2.编辑Spark Streaming应用程序,在node01提交以集群模式运行,获取node02上端口9999中的文本数据流,并每隔5s对数据流中各单词的个数进行统计。
演示文档
//*******************模拟器******************
package spark
import java.io.{PrintWriter}
import java.net.ServerSocket
import java.util.Random
import scala.io.Source
object SocketSimulation {
//随机抓取文档中的数据,在设置的端口输出
def index(length: Int)={
val rdm = new Random
rdm.nextInt(length)
}
def main(args:Array[String]): Unit ={
if(args.length!=3){
System.err.println("Usage:<filename> <port> <millisecond>")
System.exit(1)
}
val filename = args(