Spark源码系列（八）Spark Streaming实例分析

最新推荐文章于 2020-08-13 17:49:10 发布

BBlue-Sky

最新推荐文章于 2020-08-13 17:49:10 发布

阅读量472

点赞数

分类专栏： spark 文章标签： spark 实例源码代码分析

本文链接：https://blog.csdn.net/qq_33813365/article/details/70491161

版权

这一章要讲Spark Streaming，讲之前首先回顾下它的用法，具体用法请参照《Spark Streaming编程指南》。

Example代码分析
复制代码
val ssc = new StreamingContext(sparkConf, Seconds(1));
// 获得一个DStream负责连接监听端口:地址
val lines = ssc.socketTextStream(serverIP, serverPort);
// 对每一行数据执行Split操作
val words = lines.flatMap(_.split(” “));
// 统计word的数量
val pairs = words.map(word => (word, 1));
val wordCounts = pairs.reduceByKey(_ + _);
// 输出结果
wordCounts.print();
ssc.start(); // 开始
ssc.awaitTermination(); // 计算完毕退出
复制代码
1、首先实例化一个StreamingContext

2、调用StreamingContext的socketTextStream

3、对获得的DStream进行处理

4、调用StreamingContext是start方法，然后等待

我们看StreamingContext的socketTextStream方法吧。

复制代码
def socketTextStream(
hostname: String,
port: Int,
storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_SER_2
): ReceiverInputDStream[String] = {
socketStream[String](hostname, port, SocketReceiver.bytesToLines, storageLevel)
}
复制代码
1、StoageLevel是StorageLevel.MEMORY_AND_DISK_SER_2

2、使用SocketReceiver的bytesToLines把输入流转换成可遍历的数据

继续看socketStream方法，它直接new了一个

new SocketInputDStream[T](this, hostname, port, converter, storageLevel)
继续深入挖掘SocketInputDStream，追述一下它的继承关系，SocketInputDStream>>ReceiverInputDStream>>InputDStream>>DStream。

具体实现ReceiverInputDStream的类有好几个，基本上都是从网络端来数据的。

它实现了ReceiverInputDStream的getReceiver方法，实例化了一个SocketReceiver来接收数据。

SocketReceiver的onStart方法里面调用了receive方法，处理代码如下：

  socket = new Socket(host, port)
  val iterator = bytesToObjects(socket.getInputStream())
  while(!isStopped && iterator.hasNext) {
    store(iterator.next)
  }

1、new了一个Socket来接收数据，用bytesToLines方法把InputStream转换成一行一行的字符串。

2、把每一行数据用store方法保存起来，store方法是从SocketReceiver的父类Receiver继承而来，内部实现是:

def store(dataItem: T) {
executor.pushSingle(dataItem)
}
executor是ReceiverSupervisor类型，Receiver的操作都是由它来处理。这里先不深纠，后面我们再说这个pushSingle的实现。

到这里我们知道lines的类型是SocketInputDStream，然后对它是一顿的转换，flatMap、map、reduceByKey、print，这些方法都不是RDD的那种方法，而是DStream独有的。

讲到上面这几个方法，我们开始转入DStream了，flatMap、map、reduceByKey、print方法都涉及到DStream的转换，这和RDD的转换是类似的。我们讲一下reduceByKey和print。

reduceByKey方法和RDD一样，调用的combineByKey方法实现的，不一样的是它直接new了一个ShuffledDStream了，我们接着看一下它的实现吧。

override def compute(validTime: Time): Option[RDD[(K,C)]] = {
parent.getOrCompute(validTime) match {
case Some(rdd) => Some(rdd.combineByKey[C](createCombiner, mergeValue, mergeCombiner, partitioner, mapSideCombine))
case None => None
}
}
在compute阶段，对通过Time获得的rdd进行reduceByKey操作。接下来的print方法

最低0.47元/天解锁文章

BBlue-Sky

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark源码系列（八）Spark Streaming实例分析

这一章要讲Spark Streaming，讲之前首先回顾下它的用法，具体用法请参照《Spark Streaming编程指南》。Example代码分析复制代码 val ssc = new StreamingContext(sparkConf, Seconds(1)); // 获得一个DStream负责连接监听端口:地址 val lines = ssc.socketTextStream(se
复制链接

扫一扫

专栏目录