使用Spark Streaming完成黑名单过滤

最新推荐文章于 2022-05-15 00:54:38 发布

29DCH

最新推荐文章于 2022-05-15 00:54:38 发布

阅读量327

点赞数

本文链接：https://blog.csdn.net/CowBoySoBusy/article/details/84592295

版权

Spark大数据生态圈学习总结及项目实战同时被 3 个专栏收录

22 篇文章 0 订阅

订阅专栏

BigData

19 篇文章 0 订阅

订阅专栏

大数据平台Spark生态系统

13 篇文章 0 订阅

订阅专栏

首先在maven工程的pom.xml文件加入以下依赖：

<properties>
        <spark.version>2.2.0</spark.version>
    </properties>
 <!-- Spark Streaming 依赖-->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>

TransformApp.scala

package spark

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 黑名单过滤
  */
object TransformApp {


  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")

    /**
      * 创建StreamingContext需要两个参数：SparkConf和batch interval
      */
    val ssc = new StreamingContext(sparkConf, Seconds(5))


    /**
      * 构建黑名单
      */
    val blacks = List("zs", "ls")
    val blacksRDD = ssc.sparkContext.parallelize(blacks).map(x => (x, true))

    val lines = ssc.socketTextStream("localhost", 6789)
    val clicklog = lines.map(x => (x.split(",")(1), x)).transform(rdd => {
      rdd.leftOuterJoin(blacksRDD)
        .filter(x=> x._2._2.getOrElse(false) != true)
        .map(x=>x._2._1)
    })

    clicklog.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

29DCH

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用Spark Streaming完成黑名单过滤

TransformApp.scalapackage sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 黑名单过滤 */object TransformApp { def main(args: Array[Str...
复制链接

扫一扫