Redis是基于内存存储的,将内存中的数据写入磁盘中这一过程就叫做持久化。Redis 提供了2个不同形式的持久化方式。
-
RDB(Redis DataBase)
-
AOF(Append Of File)
1. RDB
1.1 简介
RDB:在指定的时间间隔内将内存中的数据集快照写入磁盘, 也就是行话讲的Snapshot快照,它恢复时是将快照文件直接读到内存里。
RDB 执行过程:
- Redis 会单独创建一个子进程(这个创建过程叫做 fork,fork 支流,分叉)来进行持久化。在这个子进程里面,会先将数据写入到一个临时文件中,待这个过程结束,再用这个临时文件替换上次持久化好的文件。 整个过程中,主进程是不进行任何 IO 操作的(save方式才是,bgsave会通过子进程来执行RDB),这就确保了极高的性能。如果需要进行大规模数据的恢复,且对于数据恢复的完整性不是非常敏感,那 RDB 方式要比 AOF 方式更加的高效。RDB的优势是它会周期性的把数据进行持久化操作,适合大规模的数据持久化操作。RDB的缺点是最后一次持久化后的数据可能丢失。
fork:
- Fork的作用是复制一个与当前进程一样的进程。新进程的所有数据(变量、环境变量、程序计数器等) 数值都和原进程一致,但是是一个全新的进程,并作为原进程的子进程。
- 在Linux程序中,fork 会产生一个和父进程完全相同的子进程,但子进程在此后多会exec系统调用,出于效率考虑,Linux中引入了“写时复制技术”。
- 一般情况父进程和子进程会共用同一段物理内存,只有进程空间的各段的内容要发生变化时,才会将父进程的内容复制一份给子进程。
持久化流程图:
1.2 配置 RDB
配置 RDB 操作的位置在 redis 的配置文件 redis.conf 中的 snapshotting(快照) 部分。
1.2.1 dump.rdb 文件
在 redis.conf 配置文件中可见,进行 RDB 操作后默认的文件名为 dump.rdb(dump 转存,dump.rdb 文件里面就是持久化后的内容):
dump.rdb 文件的保存路径,也可以修改,默认如下(默认的 ./ 表示保存在 Redis 启动时命令行所在的目录下):
注意:上面所述“Redis启动时命令行所在的目录”就是在那个目录下输入的
redis-server /etc/redis.conf
,比如在 /usr/local/bin 目录下输入的启动 redis 命令,那么这个目录下就会创建 dump.db:
执行 flushall 命令,也会产生 dump.rdb 文件,但里面是空的,无意义
1.2.2 save
格式:save 秒钟 写操作次数
RDB 是整个内存(redis 数据在内存中)的压缩过的 Snapshot(以快照的方式来转存 内存中的数据),RDB的数据结构,可以配置复合的快照触发条件,默认是1分钟内改了1万次,或5分钟内改了10次,或15分钟内改了1次:
上面的 save 20 3
表示在 20 秒内如果发生了 3 次或者 3 次以上 key 该表则进行一次持久化操作。不设置 save 指令,或者给 save 传入空字符串,都表示禁用 save,也就是停止 RDB。
注意:根据上面的配置,如果前20秒内发生了 x 次 key 改变,那么这 x 次改变都会被持久化。第 x+1 次 key 改变被算入到第二个 20秒。
举例如下:
1.2.3 stop-writes-on-bgsave-error
当 Redis 无法写入磁盘的话(比如磁盘已经满了),直接关掉Redis的写操作。推荐yes:
1.2.4 rdbcompression
rdbcompression 表示进行持久化操作时,持久化的文件是否进行压缩存储。
对于存储到磁盘中的快照,可以设置是否进行压缩存储。如果是的话,redis 会采用LZF算法进行压缩。如果你不想消耗CPU来进行压缩的话,可以设置为关闭此功能。推荐yes:
1.2.5 rdbchecksum
rdbchecksum 持久化之前检查数据是否正确,或者说是否完整,是否有损坏,如果数据有损坏则不进行持久化。
在存储快照后,还可以让redis使用CRC64算法来进行数据校验,但是这样做会增加大约10%的性能消耗,如果希望获取到最大的性能提升,可以关闭此功能。推荐yes:
1.3 rdb 文件的备份与恢复
在 /usr/local/bin 目录下输入启动 redis 指令,按照 1.2中的配置。打开另一个 FinalShell 标签(下图右边),第一个 20 秒内设置 3 个key,然后在左边标签查看,可以看到自动生成了 dump.rdb 文件。然后在第二个 20 秒内设置 1 个key,并且在左边标签查看,可以看到 dump.rdb 文件并没有更新。如下:
注意:上图有个错误,不是前3个值,而是先设置的三个值“aa”、“bb”、“cc”。
为什么上面最后一步能够看到值“dd”?
个人解释:因为杀死 redis 进程(相当于关闭程序)后默认会同步当前 redis 的所有内容到 dump.rdb。所以再次在 dump.rdb 文件存在的目录启动redis,redis 就会根据该文件来恢复数据,所以可以看到 值dd。
总结 rdb 文件的备份与恢复:
- 备份:将 *.rdb 的文件拷贝到别的地方
- 恢复:
- 先关闭Redis
- 把备份的文件拷贝到工作目录下,并改名为dump.rdb:
cp dump2.rdb dump.rdb
- 启动 Redis, 备份数据会直接加载。
1.4 RDB 的优势和劣势
优势:
- 适合大规模的数据恢复
- 对数据完整性和一致性要求不高更适合使用
- 节省磁盘空间、
- 恢复速度快
劣势:
- fork 的时候,内存中的数据被克隆了一份,大致2倍的膨胀性需要考虑
- 虽然 Redis 在 fork 时使用了写时拷贝技术,但是如果数据庞大时还是比较消耗性能。
- 在备份周期在一定间隔时间做一次备份,所以如果 Redis 意外 down 掉的话,就会丢失最后一次快照后的所有修改。
总结:
2. AOF
2.1 简介
AOF(Append Of File)是以日志的形式来记录每个写操作(增量保存),将Redis执行过的所有写指令记录下来(读操作不记录), 只许追加文件但不可以改写文件,redis启动之初会读取该文件重新构建数据,换言之,redis 重启的话就根据日志文件的内容将写指令从前到后执行一次以完成数据的恢复工作。
AOF 持久化流程:
- 客户端的请求写命令会被 append 追加到 AOF 缓冲区内;
- AOF 缓冲区根据 AOF 持久化策略(见2.2.2)将操作 sync 同步到磁盘的 AOF 文件(默认叫appendonly.aof)中;
- AOF 文件大小超过重写策略或手动重写时,会对AOF文件 rewrite 重写,压缩AOF文件容量;
- Redis 服务重启时,会重新load加载AOF文件中的写操作达到数据恢复的目的;
2.2 配置 AOF
配置 AOF 操作的位置在 redis 的配置文件 redis.conf 中的 append only mode 部分。
2.2.1 开启 AOF
AOF默认不开启。可以在 redis.conf 中设置开启,如下:
可以在 redis.conf 中配置磁盘的 AOF 文件名称,默认为 appendonly.aof,如下:
AOF文件的保存路径,同RDB。
设置完毕 redis.conf 后保存并退出,重启一下 redis,可以看到自动生成了文件 appendonly.aof,如下:
并且此时的 appendonly.aof 应该是空的,因为没有任何写操作。打开用客户端连接并查看 redis,可以发现即使 dump.rdb 里面有数据,但是 redis 里面什么都没有:
这是因为:在刚刚我们开启了 AOF 功能。而 AOF 和 RDB 同时开启,系统默认取AOF的数据(因为AOF数据不容易存在丢失)。
2.2.2 同步频率设置
appendfsync always:始终同步,每次Redis的写入都会立刻记入日志(appendonly.aof文件)。性能较差但数据完整性比较好
appendfsync everysec:每秒同步,每秒记入日志一次,如果宕机,本秒的数据可能丢失。
appendfsync no:redis不主动进行同步,把同步时机交给操作系统。由操作系统决定什么时间同步。
2.2.3 rewrite 压缩
AOF采用文件追加方式,文件会越来越大为避免出现此种情况,新增了重写机制。当AOF文件的大小超过所设定的阈值时,Redis就会启动AOF文件的内容压缩, 只保留可以恢复数据的最小指令集。比如有两条写指令:set a 1
,set b 1
,那么压缩后就用一条指令 set a 1 b 1
来记录这两个指令。
触发机制,何时重写?Redis会记录上次重写时的AOF大小,默认配置是当AOF文件大小是上次rewrite后大小的一倍且文件大于64M时触发。
重写原理和流程见课程提供的资料。
2.3 AOF 备份与恢复
AOF的备份机制和性能虽然和RDB不同,但是备份和恢复的操作同RDB一样,都是拷贝备份文件,需要恢复时再拷贝到Redis工作目录下,启动系统即加载。
正常恢复:
- 修改默认的 appendonly no,改为yes
- 将有数据的 aof 文件复制一份保存到对应目录
- 恢复:重启redis然后重新加载
案例如下:
异常恢复:当 AOF 文件坏了时,通过异常恢复可以自动修复 AOF 文件。步骤如下:
- 修改默认的appendonly no,改为yes
- 如遇到AOF文件损坏,通过指令
/usr/local/bin/redis-check-aof --fix appendonly.aof
进行恢复 - 备份被写坏的AOF文件
- 恢复:重启redis,然后重新加载
案例如下:
- 打开上面生成的 appendonly.aof 文件,在末尾加上 hello,保存并退出:
再次启动redis,通过客户端连接,可以看到会报错:
上面报错是因为我们开启了 AOF 功能,所以启动时会默认加载 当前目录下的 appendonly.aof 文件,将数据重载到 redis 中,但是这里该文件损坏了(有一个未识别的hello),所以客户端连接不上 redis。解决方法就是执行指令 redis-check aof --fix 要修复的aof文件
:
执行完成后重新查看 appendonly.aof 文件,可以看到最后一行的 hello 被删除掉了。然后按照正常恢复数据即可。
2.4 AOF 的优势和劣势
优势:
- 备份机制更稳健,丢失数据概率更低。
- 可读的日志文本,通过操作AOF稳健,可以处理误操作。
劣势:
- 比起RDB占用更多的磁盘空间。因为AOF不仅记录了数据还记录了操作。
- 恢复备份速度要慢。
- 每次读写都同步的话,有一定的性能压力。
- 存在个别Bug,造成恢复不能。
总结:
3. RDB vs AOF
官方推荐两个都启用。
如果对数据不敏感,可以选单独用RDB。
不建议单独用 AOF,因为可能会出现Bug。
如果只是做纯内存缓存,可以都不用。、
以下是官方建议(读一读即可):
-
RDB持久化方式能够在指定的时间间隔能对你的数据进行快照存储
-
AOF持久化方式记录每次对服务器写的操作,当服务器重启的时候会重新执行这些命令来恢复原始的数据,AOF命令以redis协议追加保存每次写的操作到文件末尾.
-
Redis还能对AOF文件进行后台重写,使得AOF文件的体积不至于过大
-
只做缓存:如果你只希望你的数据在服务器运行的时候存在,你也可以不使用任何持久化方式.
-
同时开启两种持久化方式
-
在这种情况下,当redis重启的时候会优先载入AOF文件来恢复原始的数据, 因为在通常情况下AOF文件保存的数据集要比RDB文件保存的数据集要完整.
-
RDB的数据不实时,同时使用两者时服务器重启也只会找AOF文件。那要不要只使用AOF呢?
-
建议不要,因为RDB更适合用于备份数据库(AOF在不断变化不好备份), 快速重启,而且不会有AOF可能潜在的bug,留着作为一个万一的手段。
-
性能建议:
因为RDB文件只用作后备用途,建议只在Slave上持久化RDB文件,而且只要15分钟备份一次就够了,只保留save 900 1这条规则。
如果使用AOF,好处是在最恶劣情况下也只会丢失不超过两秒数据,启动脚本较简单只load自己的AOF文件就可以了。
代价,一是带来了持续的IO,二是AOF rewrite的最后将rewrite过程中产生的新数据写到新文件造成的阻塞几乎是不可避免的。
只要硬盘许可,应该尽量减少AOF rewrite的频率,AOF重写的基础大小默认值64M太小了,可以设到5G以上。
-
性能建议:
因为RDB文件只用作后备用途,建议只在Slave上持久化RDB文件,而且只要15分钟备份一次就够了,只保留save 900 1这条规则。
如果使用AOF,好处是在最恶劣情况下也只会丢失不超过两秒数据,启动脚本较简单只load自己的AOF文件就可以了。
代价,一是带来了持续的IO,二是AOF rewrite的最后将rewrite过程中产生的新数据写到新文件造成的阻塞几乎是不可避免的。
只要硬盘许可,应该尽量减少AOF rewrite的频率,AOF重写的基础大小默认值64M太小了,可以设到5G以上。
默认超过原大小100%大小时重写可以改到适当的数值。