操作Cassandra（4）-Bloom过滤器_cassandra bloom-CSDN博客

本文介绍了Cassandra数据库中Bloom过滤器的作用及其配置方法。Bloom过滤器用于减少不必要的磁盘I/O操作，通过调整bloom_filter_fp_chance参数可以在内存占用与I/O效率之间找到平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bloom过滤器

在读取路径中，Cassandra将磁盘（SSTables）中的数据与RAM（memtables）中的数据合并。为了避免为每个SSTable数据文件检查所请求的分区，Cassandra采用了一种称为bloom过滤器的数据结构。

Bloom过滤器是一种概率数据结构，允许Cassandra确定两种可能状态之一： - 数据肯定不存在于给定文件中，或 - 数据可能存在于给定文件中。

虽然bloom过滤器不能保证数据存在于给定的SSTable中，但是通过消耗更多的RAM来使Bloom过滤器更准确。运算符有机会通过将bloom_filter_fp_chance调整为0到1之间的浮点来调整每个表的此行为。

对于使用水平压缩策略（LeveledCompactionStrategy）的表，bloom_filter_fp_chance的默认值为0.1，对于所有其他情况，默认值为0.01。

Bloom过滤器存储在RAM中，但存储为非堆，因此，操作员在选择最大堆大小时不应考虑bloom过滤器。随着精度提高（当bloom_filter_fp_chance接近0时），内存使用非线性增加，bloom_filter_fp_chance = 0.01的bloom过滤器将需要大约是与bloom_filter_fp_chance = 0.1相同的表的三倍的内存。

bloom_filter_fp_chance的典型值通常在0.01（1％）到0.1（10％）的假阳性几率之间，Cassandra为了发现一条数据可能扫描一行的SSTable。参数应根据用例调整：

具有较大RAM和较慢磁盘的用户可以通过将bloom_filter_fp_chance设置为数字较小的数字（例如0.01）来避免过多的IO操作
具有较少RAM，较密集节点或非常快速磁盘的用户可以容忍更高的bloom_filter_fp_chance以便以牺牲多余IO操作为代价来节省RAM
在很少读取或仅通过扫描整个数据集（如分析工作负载）执行读取的工作负载中，将bloom_filter_fp_chance设置为高得多的数是可接受的。

修改

Bloom过滤器假阳性机会在DESCRIBE TABLE输出中作为字段bloom_filter_fp_chance可见。运算符可以使用ALTER TABLE语句更改该值：

ALTER TABLE keyspace.table WITH bloom_filter_fp_chance=0.01

但是，操作员应该注意，此更改不是立即的：Bloom过滤器是在写入文件时计算的，并作为SSTable的Filter组件保留在磁盘上。在发出ALTER TABLE语句时，磁盘上的新文件将使用新的bloom_filter_fp_chance写入，但现有的sstables将不会被修改，直到它们被压缩。如果操作员需要更改的bloom_filter_fp_chance立即生效，他们可以使用nodetool scrub或nodetool upgradesstables -a触发SSTable重写，两者都将重建磁盘上的sstables，在进度中重新生成bloom过滤器。