java黑名单_java，spark实现黑名单过滤

最新推荐文章于 2024-01-29 19:58:04 发布

weixin_39779530

最新推荐文章于 2024-01-29 19:58:04 发布

阅读量926

点赞数

文章标签： java黑名单

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39779530/article/details/114437696

版权

该博客演示了如何使用Java和Spark进行黑名单过滤操作。通过读取文本文件`url.txt`，将黑名单（包含"a"，"b"，"c"）转化为JavaPairRDD，然后与文本数据进行leftOuterJoin操作，过滤掉黑名单中的单词，最终输出过滤后的白名单单词列表。

摘要由CSDN通过智能技术生成

/**

* java,spark实现黑名单过滤

*/

public class BlackListFilter {

public static void main(String[] args){

SparkConf conf = new SparkConf().setAppName("Simple Application").setMaster("local[2]");

JavaSparkContext sc = new JavaSparkContext(conf);

JavaRDD javaRDD = sc.textFile("F:\\text\\url.txt");

//黑名单

List> blackList = Arrays.asList(new Tuple2("a", true),

new Tuple2("b", true),

new Tuple2("c", true));

//list => JavaPairRDD

JavaPairRDD blackListRDD = sc.parallelizePairs(blackList);

//lines => words => (word, 1)

JavaPairRDD wordsAndCount = javaRDD

.flatMap(new FlatMapFunction() {

@Override

public Iterator call(String s) throws Exception {

return Arrays.asList(s.split("\\s+")).iterator();

}

}).mapToPair(new PairFunction() {

@Override

public Tuple2 call(String s) throws Exception {

return new Tuple2(s, 1);

}

});

//(word, 1) leftOutJoin (word, true) => (word, (1, Option))

JavaPairRDD>> leftOuterJoin =

wordsAndCount.leftOuterJoin(blackListRDD);

//(word, (1, Option)) => filter => (word, (1, option = false)) => map => word

JavaRDD whiteList = leftOuterJoin.filter(new Function>>, Boolean>() {

@Override

public Boolean call(Tuple2>> t) throws Exception {

return t._2._2.orElse(false) ? false : true;

}

}).map(new Function>>, String>() {

@Override

public String call(Tuple2>> t) throws Exception {

return t._1;

}

});

System.out.println(whiteList.collect());

}

}

weixin_39779530

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。