今天有人问我一个面试题,即在redis进行rdb备份文件时,会不会耗内存,第一感觉是redis在rdb时会fork一个子进程,而子进程会copy父进程的内存,所以会耗两倍空间,但是总感觉这样实现不太对,于是求证了下,原来Linux在fork子进程时,父进程和子进程是共享一段内存区域的,然后这段内存区域被设成只读,后面如果redis父进程再接收命令时,则对内存区域的某一页进行拷贝,然后修改拷贝的内存区域。这样也说明了rdb在备份时可能会丢失数据的风险。
rdb的好处:首先是rdb对应redis的某个时间节点的内存快照,然后把这部分内存快照写成二进制文件,这样备份的文件就比较小,然后load进内存就会很快。然后是fork子进程时不会影响父进程处理客户端发来的命令。
rdb的坏处:可能会丢失一部分数据,因为只是备份当时的内存快照,并把这部分快照写入rdb文件中,所以后面的数据有丢失的风险。
如果数据集非常大的情况下,fork子进程会很费时间以及耗cpu(需要压缩数据集),可能会耗内存,但是很小,只是fork子进程时创建一些数据结构会耗内存。