spark 布隆过滤器(bloomFilter)

最新推荐文章于 2024-02-28 10:15:04 发布

sunkl_

最新推荐文章于 2024-02-28 10:15:04 发布

阅读量5.2k

点赞数

分类专栏：大数据文章标签： spark 大数据布隆过滤器 bloomFilter 性能优化

本文链接：https://blog.csdn.net/u010990043/article/details/80499585

版权

在大数据处理中，布隆过滤器用于高效过滤和去重。本文介绍了使用Spark DataFrame内置的布隆过滤器，以提升性能并降低对外部框架的依赖。通过示例代码展示了如何创建、合并及判断数据，以及利用序列化工具进行持久化。

摘要由CSDN通过智能技术生成

数据过滤在很多场景都会应用到，特别是在大数据环境下。在数据量很大的场景实现过滤或者全局去重，需要存储的数据量和计算代价是非常庞大的。很多小伙伴第一念头肯定会想到布隆过滤器，有一定的精度损失，但是存储性能和计算性能可以达到几何级别的提升。很多第三方框架也实现了相应的功能，比如hbase框架实现的布隆过滤器性能是非常的棒，redis也可以实现相应的功能。这些需要借助于第三方框架，需要维护第三方框架。如果公司没有部署相应架构，单独为使用布隆过滤器部署一套集群，代价还是非常大的。

我们在做流式计算时需要实现数据小时级别去重和天级别数据去重，初始功能版本使用的是基于redis实现的布隆过滤器。性能也非常的好，三个节点的redis集群（三主三从，主从交叉策略）性能可以达到每秒十几万的处理性能。在后期的使用中主要瓶颈就在redis的吞吐量的性能上。一直想在这块做一定的性能优化。

后来，发现spark官方封装了基于DataFrame的布隆过滤器，使用起来相当方便。性能不再受制于第三方框架的吞吐量限制，依赖于spark的并行资源。可以减少架构设计的复杂度，提高可维护性。在流式计算应用中可以将布隆过滤器做成driver级别的全局变量，在batch结束更新布隆过滤器。如果考虑容错，可以将布隆过滤器数据定期持久化到磁盘（hdfs/redis)。

直接上代码，看一下使用方法

    val bf = df.stat.bloomFilter("dd",dataLen,0.01)
    val rightNum = rdd.map(x=>(x.toInt,bf.mightContainString(x)))

最低0.47元/天解锁文章

sunkl_

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录