spark streaming scala 过滤黑名单

本文章主要通过spark streaming实时过滤黑名单

import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

/**
 * @author jhp
  *         spark streaming实时过滤黑名单
 */
object TransformBlacklist {
  
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
        .setMaster("local[2]")  
        .setAppName("TransformBlacklist")
    //实例化流上下文
    val ssc = new StreamingContext(conf, Seconds(5))
    
    val blacklist = Array(("tom", true))  
    val blacklistRDD = ssc.sparkContext.parallelize(blacklist, 5)  
    
    val adsClickLogDStream = ssc.socketTextStream("spark1", 9999)   
    val userAdsClickLogDStream = adsClickLogDStream
        .map { adsClickLog => (adsClickLog.split(" ")(1), adsClickLog) } 
    //转换RDD
    val validAdsClickLogDStream = userAdsClickLogDStream.transform(userAdsClickLogRDD => {
      val joinedRDD = userAdsClickLogRDD.leftOuterJoin(blacklistRDD)
      //RDD过滤
      val filteredRDD = joinedRDD.filter(tuple => {
        if(tuple._2._2.getOrElse(false)) {  
          false
        } else {
          true
        }
      })
      val validAdsClickLogRDD = filteredRDD.map(tuple => tuple._2._1) 
      validAdsClickLogRDD
    })
    
    validAdsClickLogDStream.print()
    //启动上下文
    ssc.start()
    ssc.awaitTermination()
  }
  
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: epoll 可以同时监听服务器套接字和连接套接字,具体取决于注册的件描述符类型。当 epoll 实例被创建时,需要选择一个 epoll 事件模型,可以是 LT(Level-Triggered)或 ET(Edge-Triggered)。在 LT 模式下,epoll 监听件描述符上的事件时,会一直通知应用程序,直到应用程序处理完该事件。而在 ET 模式下,epoll 只会在件描述符上发生状态变化时通知应用程序,应用程序需要立即处理该事件,否则可能会错过该事件。因此,对于连接套接字,如果使用 ET 模式,可以提高处理效率。 ### 回答2: epoll是一种在Linux系统中用于高效网络编程的I/O多路复用机制。它可以同时监听多个套接字上的事件,并且只有当有事件发生时才返回给应用程序。 具体来说,epoll监听的是连接套接字(也称为件描述符),而不是服务器套接字。 首先,服务器套接字是通过调用`socket()`函数创建的,用于监听客户端的连接请求。服务器套接字处于监听状态,并且可以接受多个客户端的连接请求。 而连接套接字是在服务器套接字接受一个客户端连接后创建的,用于与该客户端进行通信。每当有新的客户端连接时,服务器会创建一个新的连接套接字,并将其添加到epoll的事件集合中。 在使用epoll时,我们要将连接套接字添加到epoll的事件集合中,并设置相应的事件(如读事件、写事件)。当有事件发生时,epoll会通过返回就绪的事件以及相应的连接套接字,告知应用程序哪些套接字上发生了事件,然后应用程序可以进行相应的处理,如读取数据或发送数据。 总结起来,epoll监听的是连接套接字,用于处理网络事件。服务器套接字只负责接受连接请求,并没有与epoll直接关联。 ### 回答3: epoll 是一种 I/O 多路复用机制,它可以用于监听套接字上的事件。在 Linux 操作系统中,epoll 可以同时监控多个事件,例如新连接的到达、数据的可读和可写等。 通常情况下,epoll 主要用于监听服务器套接字,也就是服务器用于接受客户端连接的套接字。当有新的客户端连接到服务器时,epoll 将会通知服务器去接受该连接。 在接受了客户端的连接之后,服务器会为每个连接创建一个连接套接字,该连接套接字用于与客户端进行数据的读写。以 epoll 监听连接套接字并处理数据通信的操作是可以的,但一般情况下更常见的是使用 epoll 监听服务器套接字,并在有新的连接到来时,将连接套接字添加到 epoll 的监听列表中。 因此,epoll 监听的主要是服务器套接字,用于接受新的客户端连接并处理数据通信。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值