前提:已安装并成功配置spark(单节点),
已安装配置完成netcat(博客:https://blog.csdn.net/qq_36940806/article/details/102290470)
1.cmd 进入命令行窗口,执行 spark-shell
2.cmd打开另一个命令行窗口 输入 nc -l -p 7777 监听7777端口
3.第一个命令行窗口下执行下列scala代码实现实时分词统计7777端口接收的数据
import org.apache.spark.sql.functions._
import org.apache.spark.sql.SparkSession
import spark.implicits._
val spark = SparkSession.builder.appName("StructuredNetworkWordCount").getOrCreate()
val lines = spark.readStream.format("socket").option("host", "localhost").option("port", 7777).load()
val words = lines.as[String].flatMap(_.split(" "))
val wordCounts = words.groupBy("value").count()
val query = wordCounts.writeStream.outputMode("complete").format("console").start()
query.awaitTermination()
4.在第二个命令行窗口输入下列内容并回车
apache spark
apache hadoop
5.在第一个命令行窗口中可以看到单词统计结果