第103课:动手实战联合使用Spark Streaming、Broadcast、Accumulator实现在线黑名单过滤和计数

本篇博客介绍了如何使用Spark Streaming结合Broadcast和Accumulator实现实时流处理中的在线黑名单过滤及计数。通过Broadcast将黑名单广播到Executor,使用全局计数器记录过滤的黑名单数量。在实验中,作者遇到并解决了Tcpudp工具问题,最终成功实现了对nc命令发送的黑名单数据的统计。
摘要由CSDN通过智能技术生成

第103课:动手实战联合使用Spark Streaming、Broadcast、Accumulator实现在线黑名单过滤和计数

/* 王家林老师授课http://weibo.com/ilovepains  每天晚上20:00YY频道现场授课频道68917580*/

Spark Streaming实时流处理,对于nc 输入的数据流进行黑名单过滤,并对黑名单输入的次数进行计数。


我们使用广播变量定义黑名单,使用Broadcast广播黑名单到每个Executor中

broadcastList = jsc.sparkContext().broadcast(Arrays.asList("Hadoop","Mahout","Hive"));


全局计数器,用于通知在线过滤了多少各黑名单

accumulator = jsc.sparkContext().accumulator(0, "OnlineBlacklistCounter");


实验步骤:

1、之前好用的的T

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

段智华

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值