第103课:动手实战联合使用Spark Streaming、Broadcast、Accumulator实现在线黑名单过滤和计数
/* 王家林老师授课http://weibo.com/ilovepains 每天晚上20:00YY频道现场授课频道68917580*/
Spark Streaming实时流处理,对于nc 输入的数据流进行黑名单过滤,并对黑名单输入的次数进行计数。
我们使用广播变量定义黑名单,使用Broadcast广播黑名单到每个Executor中
broadcastList = jsc.sparkContext().broadcast(Arrays.asList("Hadoop","Mahout","Hive"));
全局计数器,用于通知在线过滤了多少各黑名单
accumulator = jsc.sparkContext().accumulator(0, "OnlineBlacklistCounter");
实验步骤:
1、之前好用的的T