通过案例对SparkStreaming 透彻理解-1

最新推荐文章于 2024-07-17 17:53:42 发布

weixin_33860737

最新推荐文章于 2024-07-17 17:53:42 发布

阅读量60

点赞数

文章标签：大数据人工智能 python

原文链接：https://my.oschina.net/corleone/blog/668737

版权

2019独角兽企业重金招聘Python工程师标准>>>

Spark在 Spark Core 之上提供了很多面向不同使用场景的高层API。比如 Spark Streaming、Spark SQL 、GraphX 、MLlib

选择spark streaming 做为源码定制的出发点的原因：

从依赖的专业知识上讲，相对于其他API ，无需引入过多的专业领域的依赖知识。
从技术层面上讲，是在原有Spark Core基础上升了一维。而这是Streaming特有的。
实时流处理是使用场景最广阔的，是最优吸引力的。
可以在Streaming处理后，调用Spark兄弟框架，如MLlib、SparkSQL
Streaming 是最复杂的，因为数据一直在变动。是挑战最大的。

因此，搞定Spark Streaming之后，再学其他API，就类似《三体》中的降维打击一样，很轻松即可理解。

Streaming因为多了感知数据的逻辑，因此更像是Spark上的一个应用程序。

下面实战演示，实现从源源不断的输入流中过滤掉黑名单中的数据。

import org.apache.spark.streaming.{Durations, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object BlackListFilterSelfScala {

  def main(args: Array[String]) {

    val sparkConf = new SparkConf().
      setAppName("BlackListFilterSelfScala").
      setMaster("spark://master:7077")

    val sc = new SparkContext(sparkConf)

    /**
      * 给定默认的黑名单，此数据也可以从其他数据源动态获取
      */
    val black_list = sc.parallelize(Array("fail", "sad")).
      map(black_word => (black_word, black_word))

    /**
      * 指定checkpoint
      */
    sc.setCheckpointDir("hdfs://master:9000/library/streaming/black_list_filter/")
    val ssc = new StreamingContext(sc, Durations.seconds(30))

    /**
      * 输入格式：关键字1,关键字2,...
      */
    val input_word = ssc.socketTextStream("localhost", 9999)

    val flattenWord = input_word.flatMap(_.split(" ")).
      map(row => {
        (row, row)
      })

    val not_black_word = flattenWord.transform(fw => {
      fw.leftOuterJoin(black_list). // 左连接
        filter(_._2._2.isEmpty). // 将黑名单中的过滤掉
        map(_._1) // 只返回关键字
    })

    not_black_word.print // 输出

    ssc.start
    ssc.awaitTermination
    sc.stop

  }

}

部署到集群环境中，另起命令行：