RSYNC
什么是RSYNC
rsync是类unix下的一款数据镜像备份工具——remote sync。
Rsync 的基本特点如下:
- 可以镜像保存整个目录树和文件系统;
- 可以很容易做到保持原来文件的权限、时间、软硬链接等;
- 无须特殊权限即可安装;
- 优化的流程,文件传输效率高;
- 可以使用 rcp、ssh 等方式来传输文件,当然也可以通过直接的 socket 连接;
- 支持匿名传输;
- rsync的主要特点就是增量传输,只对变更的部分进行传送。
RSYNC原理
rsync
原理
rsync
是linux
下同步文件的一个高效算法,用于同步更新两处计算机的文件和目录,并适当利用查找文件中的不同块以减少数据传输。rsync
的主要特点就是增量传输,只对变更的部分进行传送。
增量同步算法
假如我们现在需要同步两个文件保持一致,并且只想传送不同的部分,那么我们就需要对两边的文件做diff
,但是这两个文件在两台不同的机器上,无法做diff
。如果我们做diff
,就要把一个文件传到另一台机器上做diff
,但这样一来,我们就传了整个文件,这与我们只想传输不同部的初衷相背。于是我们就要想一个办法,让这两边的文件见不到面,但还能知道它们间有什么不同。这就是rsync
的算法。
rsync
同步算法
我们将同步源文件名称为fileSrc
,同步目的文件叫fileDst
。
1. 分块Checksum
算法
找到文件不同的地方
首先,我们会把fileDst
的文件平均切分成若干个小块,比如每块512
个字节(最后一块会小于这个数),然后对每块计算两个checksum
:
- 一个叫
rolling checksum
,是弱checksum
,32
位的checksum
- 另一个是强
checksum
,128
位的,以前用md4
,现在用md5 hash
算法。
为什么要这样?因为若干年前的硬件上跑md4
的算法太慢了,所以,我们需要一个快算法来鉴别文件块的不同,但是弱的adler32
算法碰撞概率太高了,所以我们还要引入强的checksum
算法以保证两文件块是相同的。也就是说,弱的checksum
是用来区别不同,而强的是用来确认相同。
2. 传输算法
同步目标端会把fileDst
的一个checksum
列表传给同步源,这个列表里包括了三个东西,rolling checksum(32bits),md5 checksume(128bits)
,文件块编号。
同步源机器拿到了这个列表后,会对fileSrc
做同样的checksum
,然后和fileDst
的checksum
做对比,这样就知道哪些文件块改变了。
但是,聪明的你一定会有以下两个疑问:
如果我fileSrc
这边在文件中间加了一个字符,这样后面的文件块都会位移一个字符,这样就完全和fileDst
这边的不一样了,但理论上来说,我应该只需要传一个字符就好了。这个怎么解决?
如果这个checksum
列表特别长,而我的两边的相同的文件块可能并不是一样的顺序,那就需要查找,线性的查找起来应该特别慢吧。这个怎么解决?
很好,让我们来看一下同步源端的算法。
3. checksum
查找算法
同步源端拿到fileDst
的checksum
数组后,会把这个数据存到一个hash table
(特殊的数据结构体,可以快速检索)中,用rolling checksum
做hash
,以便获得O(1)
时间复杂度的查找性能。这个hash table
是16bits
的,所以,hash table
的尺寸是2的16次方
,对rolling checksum
的hash
会被散列到0 到 2^16 – 1
中的某个整数值。
4. 比对算法
- 取
fileSrc
的第一个文件块(我们假设的是512
个长度),也就是从fileSrc
的第1
个字节到第512
个字节,取出来后做rolling checksum
计算。计算好的值到hash
表中查。 - 如果查到了,说明发现在
fileDst
中有潜在相同的文件块,于是就再比较md5
的checksum
,因为rolling checksume
太弱了,可能发生碰撞。于是还要算md5
的128bits
的checksum
,这样一来,我们就有2^-(32+128) = 2^-160
的概率发生碰撞,这太小了可以忽略。如果rolling checksum
和md5 checksum
都相同,这说明在fileDst
中有相同的块,我们需要记下这一块在fileDst
下的文件编号。 - 如果
fileSrc
的rolling checksum
没有在hash table
中找到,那就不用算md5 checksum
了。表示这一块中有不同的信息。总之,只要rolling checksum
或md5 checksum
其中有一个在fileDst
的checksum hash
表中找不到匹配项,那么就会触发算法对fileSrc
的rolling
动作。于是,算法会住后step 1
个字节,取fileSrc
中字节2-513
的文件块要做checksum,go to (1.)
– 现在你明白什么叫rolling checksum
了吧。 - 这样,我们就可以找出
fileSrc
相邻两次匹配中的那些文本字符,这些就是我们要往同步目标端传的文件内容了。
5. 传输
最终在同步源这端,我们的rsync
算法可能会得到这个样子的一个数据数组,图中,红色块表示在目标端已匹配上,不用传输(注:我专门在其中显示了两块chunk #5
,代表数据中有复制的地方,不用传输),而白色的地方就是需要传输的内容(注意:这些白色的块是不定长的),这样,同步源这端把这个数组(白色的就是实际内容,红色的就放一个标号)压缩传到目的端,在目的端的rsync
会根据这个表重新生成文件,这样,同步完成。
参考博客:
https://segmentfault.com/a/1190000018391604?utm_source=tag-newest
安装部署服务端
- 安装xineted服务
[root@server1 ~]# yum install rsync.x86_64 -y
[root@server1 ~]# yum install xinetd -y
- 修改xineted配置文件
[root@server1 ~]# vim /etc/xinetd.d/rsync
service rsync
{
disable = no
socket_type = stream
wait = no
user = root
server = /usr/bin/rsync
server_args = --daemon
port = 873
log_on_failure = USERID
}
- 修改rsync配置文件
[root@server1 ~]# vim /etc/rsyncd.conf
[test]
path = /test
uid = root
gid = root
max co