最近在做SparkStreaming实时处理日志的小项目,里面有一步是用SparkStreaming从Kafka消费得到消息,然后通过redis存储,并且实现去重操作。
第一次做项目的我就有疑问了,如果拿到数据要存着然后进行操作的话,如果我把数据都存在HashMap里面不行吗,反正都是键值对,何必要再连接一下Redis呢?(这里HashMap只是泛指Java的自身数据结构)
查了一下之后,了解了为什么这里得用Redis。
首先,Redis和HashMap都是基于内存操作的,所以在速度上不会有很大区别,HashMap因为操作简单,所以略优,那么不用HashMap可以总结为下面几个点
-
数据持久化保存
,redis首先是一个数据库,然后才是一些键值对,而HashMap只是一个对象,他会随着程序结束而放弃内存,那么他所存储的数据就会被丢弃,那么如果程序中途因为某种原因shutdown了,之前没处理的数据就会丢失,而redis不会 -
·
数据一致性
,redis的实例只维护一份数据,也就是redis存的数据,但是对于不同的HashMap实例对象来说,他们所存的数据是不一样的,或者说是不相通的 -
内存大小
,HashMap的大小受JVM的内存大小限制,一般是几G,而redis可以用几十G来做缓存 -
内存使用
,Redis的缓存有过期机制,处理完的数据可以自动过期让出内存继续处理其他数据,而HashMap不行
想着为什么要用HashMap作为中间的数据缓存可能还是因为思维停留在了简单的算法题上,一些简单的处理方式,但是实际项目中涉及的数据量是不可估计的,并且会涉及到很多数据的维护性问题,所以这样就比较容易理解为什么需要容Redis来做了