项目中遇到Spark Streaming吞吐量太低的问题,redis集群使用HashMap优化键值存储结构提升Spark Streaming吞吐量。
场景:
设备将运行报文发送到kafka,Spark Streaming对报文进行加工处理,生成6类不同报文信息以json字符串形式set进redis集群。
问题:
kafka消费速度跟不上。
分析:
对于1000万设备一个上报周期上报1000万条报文,极端情况下同时上报,Spark Streaming消费1000万条报文,生成6000万个键值对存储入redis集群。
优化思路,降低Spark Streaming操作redis的频率,降低key的数量。提升Spark Streaming吞吐量,提升redis集群的查询速度以及后续key的更新速度。计划使用HashMap结构将6类json报文的属性提取出来作为HashMap的field。
测试:
相同集群环境下set操作和hset操作均使用基于Lettuce的Spring data redis客户端。使用pipliene的方式进行命令提交。每批处理命令1000条。
set模式使用3个json报文共32个属性,hset模式使用一个相同32属性的Map。则set模式下存储报文量为hset模式下的3倍。
结果:
set | hset | 速度提升 | |
---|---|---|---|
10万数量级场景 | 1.3min(30万) | 51s(10万) | 34% |
100万数量级场景 | 1.3min(300万) | 51s(100万) | 27% |
1000万数量级场景 | 1.789hours(3000万) | 1.295hous(1000万) | 27% |
结论:
使用HashMap结构降低redsi集群键值数量可以提升存储性能,提升Spark Streaming吞吐量。提升预估20%~30%,待现网验证,补充结果。