redis集群使用HashMap优化键值存储结构提升存储性能

最新推荐文章于 2024-07-31 15:34:56 发布

南熏门前一只喵

最新推荐文章于 2024-07-31 15:34:56 发布

阅读量1.1k

点赞数

分类专栏： redis Spark spring-boot 文章标签： redis spring java spark

本文链接：https://blog.csdn.net/newCheng/article/details/104623147

版权

spring-boot 同时被 3 个专栏收录

15 篇文章 1 订阅

订阅专栏

redis

6 篇文章 0 订阅

订阅专栏

Spark

4 篇文章 0 订阅

订阅专栏

项目中遇到Spark Streaming吞吐量太低的问题，redis集群使用HashMap优化键值存储结构提升Spark Streaming吞吐量。

场景：
设备将运行报文发送到kafka，Spark Streaming对报文进行加工处理，生成6类不同报文信息以json字符串形式set进redis集群。

问题：
kafka消费速度跟不上。

分析：
对于1000万设备一个上报周期上报1000万条报文，极端情况下同时上报，Spark Streaming消费1000万条报文，生成6000万个键值对存储入redis集群。
优化思路，降低Spark Streaming操作redis的频率，降低key的数量。提升Spark Streaming吞吐量，提升redis集群的查询速度以及后续key的更新速度。计划使用HashMap结构将6类json报文的属性提取出来作为HashMap的field。

测试：
相同集群环境下set操作和hset操作均使用基于Lettuce的Spring data redis客户端。使用pipliene的方式进行命令提交。每批处理命令1000条。
set模式使用3个json报文共32个属性，hset模式使用一个相同32属性的Map。则set模式下存储报文量为hset模式下的3倍。

结果：

	set	hset	速度提升
10万数量级场景	1.3min(30万)	51s(10万)	34%
100万数量级场景	1.3min(300万)	51s(100万)	27%
1000万数量级场景	1.789hours(3000万)	1.295hous(1000万)	27%