最近,升级阿里云k8s工作节点的操作系统,从2.1903升级到3.2104,升级后发现cassandra吞吐量骤降,延迟飙升,大量请求超时,ReadStage任务队列出现大量堆积,磁盘Read升到1.5G/s。
观察cassandra启动日志,发现有一条警告日志:
WARN [main] 2024-05-13 02:56:29,002 StartupChecks.java:436 - Detected high '/sys/block/vdf/queue/read_ahead_kb' setting of 4096 for device '/dev/vdf' of data directory '/var/lib/cassandra/data'. It is recommended to set this value to 8KB (or lower) on SSDs or 64KB (or lower) on HDDs to prevent excessive IO usage and page cache churn on read-intensive workloads.
意思是数据盘的read_ahead_kb太高,建议设置为8KB(SSD)或者64KB(磁盘)。
看了一下read_ahead_kb相关说明,read_ahead_kb是硬盘的预读量,主要用于提高顺序读的性能,但是对于随机读的情况,read_ahead_kb太高将导致不必要的数据被加载到内存中,导致IO飙升,降低page cache效率。
按照cassandrade建议,将read_ahead_kb设置为8KB后,问题解决。
为了确认read_ahead_kb之前的默认值,我又部署了一个Alibaba Cloud Linux 2.1903的节点,发现之前的默认值是128KB,升级到3.2104后,默认值变成了4096KB。
参考文档:
- Comparing impact of disk read-ahead settings:cassandra-on-azure-vms-performance-experiments/docs/cassandra-read-ahead.md at master · Azure-Samples/cassandra-on-azure-vms-performance-experiments · GitHub