Spark Streaming 是一个基于spark的实时计算框架。详细说明参考Spark Streaming Programming Guide. 以下是编程指南WordCount例子的在spark-shell了实验记录。运行前,把spar/conf目录下的log4j.properties里的日志级别由INFO改为WARN,否则会打印太多的日志。
1. 运行 nc 模拟数据源输入
文中的命令为 nc -lk 9999 ,运行后在另一个窗口用netstat -tnlp | grep 9999 命令检查一下,如果没有输出改用nc -lk -p 9999 再试一下。
2. 运行 spark-shell
spark-shell --master spark://d-hdp-01:7077 --executor-memory 1g
在paste模式拷贝以下代码,其中ip地址根据实际情况设置,spark-shell已创建了上下文,就不用在创建上下文了。
import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.StreamingContext._
val ssc = new StreamingContext(sc, Seconds(1))
val lines = ssc.socketTextS