Rsync工具的详细介绍以及定时备份案例

Rsync工具详解：增量同步与定时备份策略

最新推荐文章于 2025-10-17 21:21:53 发布

原创

最新推荐文章于 2025-10-17 21:21:53 发布 · 1.8k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#ssh #服务器 #运维 #linux

本文详细介绍了Rsync工具的原理，包括增量同步算法和同步过程，探讨了分块算法、传输算法、查找算法和比对算法。此外，还展示了Rsync在服务器上的安装部署、六种工作模式，以及具体的应用案例——如何设置定时备份，包括客户端和服务端的需求和操作步骤。

RSYNC

什么是RSYNC

rsync是类unix下的一款数据镜像备份工具——remote sync。

Rsync 的基本特点如下：

可以镜像保存整个目录树和文件系统；
可以很容易做到保持原来文件的权限、时间、软硬链接等；
无须特殊权限即可安装；
优化的流程，文件传输效率高；
可以使用 rcp、ssh 等方式来传输文件，当然也可以通过直接的 socket 连接；
支持匿名传输；
rsync的主要特点就是增量传输，只对变更的部分进行传送。

RSYNC原理

`rsync`原理

rsync是linux下同步文件的一个高效算法，用于同步更新两处计算机的文件和目录，并适当利用查找文件中的不同块以减少数据传输。rsync的主要特点就是增量传输，只对变更的部分进行传送。

增量同步算法

假如我们现在需要同步两个文件保持一致，并且只想传送不同的部分，那么我们就需要对两边的文件做diff，但是这两个文件在两台不同的机器上，无法做diff。如果我们做diff，就要把一个文件传到另一台机器上做diff，但这样一来，我们就传了整个文件，这与我们只想传输不同部的初衷相背。于是我们就要想一个办法，让这两边的文件见不到面，但还能知道它们间有什么不同。这就是rsync的算法。

`rsync`同步算法

我们将同步源文件名称为fileSrc，同步目的文件叫fileDst。

1. 分块`Checksum`算法

找到文件不同的地方

首先，我们会把fileDst的文件平均切分成若干个小块，比如每块512个字节（最后一块会小于这个数），然后对每块计算两个checksum:

一个叫rolling checksum，是弱checksum，32位的checksum
另一个是强checksum，128位的，以前用md4，现在用md5 hash算法。

为什么要这样？因为若干年前的硬件上跑md4的算法太慢了，所以，我们需要一个快算法来鉴别文件块的不同，但是弱的adler32算法碰撞概率太高了，所以我们还要引入强的checksum算法以保证两文件块是相同的。也就是说，弱的checksum是用来区别不同，而强的是用来确认相同。

2. 传输算法

同步目标端会把fileDst的一个checksum列表传给同步源，这个列表里包括了三个东西，rolling checksum(32bits)，md5 checksume(128bits)，文件块编号。

同步源机器拿到了这个列表后，会对fileSrc做同样的checksum，然后和fileDst的checksum做对比，这样就知道哪些文件块改变了。

但是，聪明的你一定会有以下两个疑问：

如果我fileSrc这边在文件中间加了一个字符，这样后面的文件块都会位移一个字符，这样就完全和fileDst这边的不一样了，但理论上来说，我应该只需要传一个字符就好了。这个怎么解决？
如果这个checksum列表特别长，而我的两边的相同的文件块可能并不是一样的顺序，那就需要查找，线性的查找起来应该特别慢吧。这个怎么解决？
很好，让我们来看一下同步源端的算法。

3. `checksum`查找算法

同步源端拿到fileDst的checksum数组后，会把这个数据存到一个hash table（特殊的数据结构体，可以快速检索）中，用rolling checksum做hash，以便获得O(1)时间复杂度的查找性能。这个hash table是16bits的，所以，hash table的尺寸是2的16次方，对rolling checksum的hash会被散列到0 到 2^16 – 1中的某个整数值。

4. 比对算法

在这里插入图片描述

取fileSrc的第一个文件块（我们假设的是512个长度），也就是从fileSrc的第1个字节到第512个字节，取出来后做rolling checksum计算。计算好的值到hash表中查。
如果查到了，说明发现在fileDst中有潜在相同的文件块，于是就再比较md5的checksum，因为rolling checksume太弱了，可能发生碰撞。于是还要算md5的128bits的checksum，这样一来，我们就有 2^-(32+128) = 2^-160的概率发生碰撞，这太小了可以忽略。如果rolling checksum和md5 checksum都相同，这说明在fileDst中有相同的块，我们需要记下这一块在fileDst下的文件编号。
如果fileSrc的rolling checksum 没有在hash table中找到，那就不用算md5 checksum了。表示这一块中有不同的信息。总之，只要rolling checksum 或 md5 checksum 其中有一个在fileDst的checksum hash表中找不到匹配项，那么就会触发算法对fileSrc的rolling动作。于是，算法会住后step 1个字节，取fileSrc中字节2-513的文件块要做checksum，go to (1.) – 现在你明白什么叫rolling checksum了吧。
这样，我们就可以找出fileSrc相邻两次匹配中的那些文本字符，这些就是我们要往同步目标端传的文件内容了。

5. 传输

最终在同步源这端，我们的rsync算法可能会得到这个样子的一个数据数组，图中，红色块表示在目标端已匹配上，不用传输（注：我专门在其中显示了两块chunk #5，代表数据中有复制的地方，不用传输），而白色的地方就是需要传输的内容（注意：这些白色的块是不定长的），这样，同步源这端把这个数组（白色的就是实际内容，红色的就放一个标号）压缩传到目的端，在目的端的rsync会根据这个表重新生成文件，这样，同步完成。

参考博客：

https://segmentfault.com/a/1190000018391604?utm_source=tag-newest

安装部署服务端

安装xineted服务

[root@server1 ~]# yum install rsync.x86_64 -y
[root@server1 ~]# yum install xinetd -y

修改xineted配置文件

[root@server1 ~]# vim /etc/xinetd.d/rsync
service rsync
{
   
   
disable = no
socket_type     = stream
wait            = no
user            = root
server          = /usr/bin/rsync
server_args     = --daemon
port            = 873
log_on_failure  = USERID
}

修改rsync配置文件

[root@server1 ~]# vim /etc/rsyncd.conf 
[test]
path = /test
uid = root
gid = root
max connections = 2
timeout = 300
read only = false
auth users = root
secrets file