这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照《Spark Streaming编程指南》。
Example代码分析
复制代码
val ssc = new StreamingContext(sparkConf, Seconds(1));
// 获得一个DStream负责连接 监听端口:地址
val lines = ssc.socketTextStream(serverIP, serverPort);
// 对每一行数据执行Split操作
val words = lines.flatMap(_.split(” “));
// 统计word的数量
val pairs = words.map(word => (word, 1));
val wordCounts = pairs.reduceByKey(_ + _);
// 输出结果
wordCounts.print();
ssc.start(); // 开始
ssc.awaitTermination(); // 计算完毕退出
复制代码
1、首先实例化一个StreamingContext
2、调用StreamingContext的socketTextStream
3、对获得的DStream进行处理
4、调用StreamingContext是start方法,然后等待
我们看StreamingContext的socketTextStream方法吧。
复制代码
def socketTextStream(
hostname: String,
port: Int,
storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_SER_2
): ReceiverInputDStream[String] = {
socketStream[String](hostname, port, SocketReceiver.bytesToLines, storageLevel)
}
复制代码
1、StoageLevel是StorageLevel.MEMORY_AND_DISK_SER_2
2、使用SocketReceiver的bytesToLines把输入流转换成可遍历的数据
继续看socketStream方法,它直接new了一个
new SocketInputDStream[T](this, hostname, port, converter, storageLevel)
继续深入挖掘SocketInputDStream,追述一下它的继承关系,SocketInputDStream>>ReceiverInputDStream>>InputDStream>>DStream。
具体实现ReceiverInputDStream的类有好几个,基本上都是从网络端来数据的。
它实现了ReceiverInputDStream的getReceiver方法,实例化了一个SocketReceiver来接收数据。
SocketReceiver的onStart方法里面调用了receive方法,处理代码如下:
socket = new Socket(host, port)
val iterator = bytesToObjects(socket.getInputStream())
while(!isStopped && iterator.hasNext) {
store(iterator.next)
}
1、new了一个Socket来接收数据,用bytesToLines方法把InputStream转换成一行一行的字符串。
2、把每一行数据用store方法保存起来,store方法是从SocketReceiver的父类Receiver继承而来,内部实现是:
def store(dataItem: T) {
executor.pushSingle(dataItem)
}
executor是ReceiverSupervisor类型,Receiver的操作都是由它来处理。这里先不深纠,后面我们再说这个pushSingle的实现。
到这里我们知道lines的类型是SocketInputDStream,然后对它是一顿的转换,flatMap、map、reduceByKey、print,这些方法都不是RDD的那种方法,而是DStream独有的。
讲到上面这几个方法,我们开始转入DStream了,flatMap、map、reduceByKey、print方法都涉及到DStream的转换,这和RDD的转换是类似的。我们讲一下reduceByKey和print。
reduceByKey方法和RDD一样,调用的combineByKey方法实现的,不一样的是它直接new了一个ShuffledDStream了,我们接着看一下它的实现吧。
override def compute(validTime: Time): Option[RDD[(K,C)]] = {
parent.getOrCompute(validTime) match {
case Some(rdd) => Some(rdd.combineByKey[C](createCombiner, mergeValue, mergeCombiner, partitioner, mapSideCombine))
case None => None
}
}
在compute阶段,对通过Time获得的rdd进行reduceByKey操作。接下来的print方法