Sync Algorithm: RSync vs. RDC 数据同步(Sync)是很多网络应用需要的解决的问题,比如文件镜像。这里就以文件同步为例,问题模型:网络中两个主机Host-A和Host-B,都有同一文件File-Old的拷贝,现在这个文件在Host-A上做了一些改变成为了File-New,需要通过同步让Host-B也获得F-New。   让我们想想怎么处理这个问题,最简单的方法,把所有数据都传输一遍,这样是简单,但是显得浪费,因为File-New相对于File-Old只是有些小改变,全部copy代价太大。如果我们能够只传输发生改变的部分,也就是增、删、改的文件部分,那就太好了。这样,我们要解决的问题变成,如何得到File-Old和File-New的差别。   如果Host-A上面保留有一个File-Old,那用普通的diff算法求一下和File-New的差别就行了,但是实际应用中,Host-A往往不会保留File-Old;或者文件格式本身有很强的版本控制功能,Host-B告诉Host-A它手上文件的版本,Host-A就能够计算出差别;更多情况下,文件就是一串bytes,没有版本控制信息,没有历史拷贝,Rsync和RDC就是解决这种情况的同步的。   RSync算法是澳大利亚人Andrew Tridgell发明的,我看懂这个算法之后的第一感觉是:“嘿,这算法我也应该能想出来!”的确,按照Andrew Tridgell自己的话,这个算法只需要半个小时就能够理解,但是花费了他几年时间研究出来。   这里大概介绍一下Rsync算法大概原理: 1) Host-B把File-Old划分成不重合的大小为K字节的若干块,不足K字节的结尾部分加上Padding,然后对每一块求弱Hash和强Hash。弱Hash就是说很有可能两个不同的块Hash值相同,但是计算起来快,而且这里要求这个若Hash能够Rolling,也就是说已知字节1到字节K这个块的Hash值,能够很快的计算出字节2到字节K+1这个块的Hash值,往前Roll一个字节,计算很快;强Hash就是可以认为不同块肯定有不同Hash值,Rsync用的是MD4。我们让WH表示弱Hash,SH表示强Hash。 2) Host-B把每个块的WH和SH值发送给Host-A。 3) 该Host-A上场了,他的运算量比较大。Host-A对File-New每一个长度为K的块(也就是以每个字节开头的长度为K的块)计算WH,计算出来之后和Host-B发送过来的WH匹配,如果发现有相同的,再计算这个块的SH进行匹配,如果还是相符,说明这个块在File-Old里面也存在。假如File-New长度为N,那么Host-A要处理大约(N-K)个块,这里可见用两个Hash算法的作用,WH用来做初步比较,而且因为它可以Rolling,所以能够很快筛选掉大多数不匹配,对于漏网之鱼,也躲不过SH的筛选。 4) 通过上面的计算,Host-A可知道,File-New中哪些块和File-Old中的块相同,这样自然也可以计算出哪些不同,Host-A把这些不同encode一下送给Host-B。 5) Host-B收到Host-A送来的数据,decode,就得到了File-New相对于File-Old的改变,于是获得了File-New。   整个过程只需要一个round-trip,而且可以精确的得到一个字节级别的差别,Host-A的运算量相对要大一些。   Rsync的实现已经是*inx上面的一个重要工具,所以,当Microsoft在Windows 2003 Server上推出DFSR(Distributed File System Replication)时,Open Source Community颇有嘘声。其实DFSR采用的是RDC(Remote Differential Compression)算法,和RSync相差很大,并没有抄袭RSync。   我感觉,RSync有学院气息(这个算法本来就是Andrew Tridgell的博士论文),结果很完美,File-New和File-Old每一个字节的差别都计算出来了,但是Host-A和Host-B的计算量不对等,大部分的计算都集中在Host-A上。RDC和RSync相比方向上有点不同,RDC并不追求计算出字节级别的diff,而是用较少的运算求出数据块级别的diff。   RDC算法要求Host-A和Host-B通过一致的规则对File-New和File-Old分别进行分块,然后对每个块计算SH,Host-B把每个块的SH值发给Host-A,Host-A对两组SH进行diff,就可以知道有哪些块不同,哪些块被删掉了,哪些块被添加了。RDC的关键在于分块规则,也使用WH,要让同一规则应用于File-Old和File-New的时候,分出来的块能够尽量体现出区别。   比如File-Old包含“I Love Playing Basketball”, File-New是“I Like Playing Football"。如果是RSync算法,Host-A能够计算出准确的差别,“I Like Playing Football" ×××部分修改了,绿色部分是增加的,精确到每个字符,Host-A主要告诉Host-B:“把第4-6号字符换成'ike',把16-21号字符去掉,插入'Foot'”。   如果是RDC算法,可能得到下面的结果: File-Old分块的结果,分成3块。 “I Love Playing Basketball” File-New分块的结果,分成3块。 “I Like Playing Football" Host-A经过比对,发现只有File-Old的第2块和File-New的第2块匹配,于是就告诉Host-B:“把你的第一块换成‘I Like’,把你的第3块换成‘Football’”。   如上面看到,RDC相对而言比较浪费,相比RSync,要多传输一些数据,但是Host-A和Host-B的计算量比较平均。为了让RDC发挥好的性能,一定要制定一个好的分块机制,让包含Diff的块尽量少包含没有Diff的数据,怎么做到这一点呢,还要靠WH,通过rolling checksum来从数据中快速挖掘出数据的性质。   注意一点就是RSync的分块策略是每块都是固定长度的,而RDC则每块长度可能不一样。   虽然RDC相对浪费一点,但是传送的大部分还是Delta数据,而且计算量相对平均而且较少,目前Window 2003 Server R2上的DFS使用的就是RDC算法,还有一个应用就是Live Messenger的Shared Folder功能,用一用,就知道效率不差了:)   转自: http://morganchengmo.spaces.live.com/blog/cns!9950CE918939932E!521.entry  

Linux系统下如何使用rsync进行数据同步 发布时间:2008.01.30 06:33     来源:赛迪网    作者:sixth首先安装Rsync,比如在Redhat Fedora Linux上或者RHEL AS3上: rpm -ivh rsync-2.5.7-5.3E.i386.rpm 安装完成。 rsync客户端和服务器端都是同一个执行文件,只不过加的参数不一样。 例如,服务器A是192.168.0.100,服务器B是192.168.0.101,例如将101上的/www/downloads/new目录下的文件同步到192.168.0.100的/www/download目录下,则100上运行rsync作为服务器端,101做为客户端。 首先把192.168.0.100服务器端的配置文件建立起来。 vi /etc/rsyncd.conf 内容如下: uid = nobody gid = nobody use chroot = yes max connections = 4 pid file = /var/run/rsyncd.pid lock file = /var/run/rsync.lock log file = /var/log/rsyncd.log [downloads] path = /www/downloads/ ignore errors read only = false list = false hosts allow = 192.168.0.101/24 hosts deny = 0.0.0.0/32 auth users = backup secrets file = /etc/rsyncd.pwd 找个配置文件中,uid和gid指明了运行身份,chroot表示连接后自动切换目录,read only=false是允许别的客户端向本机的服务器端上传。host allow和deny是限制连接地址。auth user是认证用户名,secrets file = /etc/rsyncd.pwd是表示认证用户名的时候到这里读取密码。 接下来编辑密码文件: vi /etc/rsyncd.pwd backup:123456 设置密码文件权限700:(权限不对会登陆不上) chmod 700 /etc/rsyncd.pwd 然后启动rsync服务: /usr/bin/rsync --daemon 把rsync加入自动启动脚本,开机后自动启动: echo "/usr/bin/rsync --daemon" >> /etc/rc.d/rc.local 注意一下iptables必须允许rsync的873端口被连接。 现在到192.168.0.101的客户端上,命令格式如下: rsync [-参数] 源地址路径 目标地址路径 例如将101上的/www/downloads/new目录下的文件同步到192.168.0.100的/www/downloads目录中。 则创建执行脚本: vi /root/rsync.sh rsync -vrtL --progress \ /www/downloads/new/* \ backup@192.168.0.100::downloads \ --password-file=/root/rsync.pwd -v参数表示显示输出结果,r表示保持属性,t表示保持时间,L表示软link视作普通文件。 创建客户端的密码文件: vi /root/rsync.pwd 123456 注意:客户端的密码脚本不带用户名。 设置密码文件权限700:(权限不对会登陆不上) chmod /root/rsync.pwd 将客户端脚本加入定期任务: echo "00 3 * * * root /usr/prima/etc/rsync.sh" >> /etc/crontab 则每天凌晨3点运行同步。 现在可以直接运行 /root/rsync.sh 观看效果。 简单的rsync配置完成。  
<!--   http://tech.ccidnet.com/art/737/20080129/1356637_1.html  -->  

Rsync简介    rsync-2.6.8-1.el4.rf.i386.rpm  
rsync是一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。 rsync 本来是用以取代 rcp 的一个工具, 它当前是由 rsync.samba.org 维护. rsync 使用所谓的 "rsync 演算法", 提供一个非常快速的文件传输方法, 使 local 和远程二部主机之间的文件达到同步, 它主要是传送二个文件的不同部份, 而非每次都整份传送, 因此速度相当地快. 运行rsync server的机器也就是backup server,1台rsync server可同时备份多个client的数据;也可以多个rsync备份1个client的数据。 rsync 可以搭配 rsh 或 ssh 甚至使用 daemon 模式。 Rsync server会打开一个 873 的服务通道(port), 等待对方 rsync 连接. 连接时, rsync Server 会检查口令是否相符, 若通过口令查核, 则开始进行文件传输. 第一次连通完成时, 会把整份文件传输一次, 下一次就只传送二个文件之间不同的部份.  
Rsync client可以是类unix主机也可以是windows主机(需配合Sync2NAS使用)。  

基本特色1。可以镜像保存整个目录树和文件系统。 2。可以很容易做到保持原来文件的权限、时间、软硬链接等等。 3。无须特殊权限即可安装。 4。优化的流程,文件传输效率高。 5。可以使用rcp、ssh等方式来传输文件,当然也可以通过直接的socket连接。 6。支持匿名传输。  
相关链接官方网站   http://rsync.samba.org/  下载   http://rsync.samba.org/download.html  
rsync实例用法- -                                        
http://batc.bao.ac.cn/cgi-bin/leobbs/cgi-bin/topic.cgi?forum=2&topic=7&show=0  

vi /etc/xinetd.d/rsync  
disable = yes  
改成  
disable = no  

rsyncd.conf 是rsyncd的config文件  
vi /etc/rsyncd.conf  
#uid = nobody  
#gid = nobody  
use chroot = yes  
max connections = 4  
pid file = /var/run/rsyncd.pid  
lock file = /var/run/rsync.lock  
log file = /var/log/rsyncd.log  
      [compshop]  
      path = /home/sites/compshop  
      auth users = compshop  
      uid = compshop  
      gid = compshop  
      secrets file = /etc/rsyncd.secrets  
      read only = no  
      [datafeed]  
      path = /home/sites/datafeed  
      auth users = datafeed  
      uid = datafeed  
      gid = datafeed  
      secrets file = /etc/rsyncd.secrets  
      read only = no  
      [smtemplates]  
      path = /home/sites/smtemplates  
      auth users = smtemplates  
      uid = smtemplates  
      gid = smtemplates  
      secrets file = /etc/rsyncd.secrets  
      read only = no  
      [smarterv2]  
      path = /home/sites/smarterv2  
      auth users = smarterv2  
      uid = smarterv2  
      gid = smarterv2  
      secrets file = /etc/rsyncd.secrets  
      read only = no  

rsyncd.secrets是rsyncd的密码文件,里面是写用户名和密码,就是linux的用户名和密码  
vi /etc/rsyncd.secrets  
compshop:any  
datafeed:any  
smtemplates:any  
smarterv2:any  
以上是服务器端的配置,开了这个服务以后,端口是873  
以下是客服端的配置文件,是在另外一台电脑上的。文件名是可以自己改的。  
vi /home/sites/sites_rsyncd  
#!/bin/bash  
rsync -tvzrp --progress --password-file=/home/sites/rsyncd.secrets --delete --exclude  
/home/sites/compshop/logs   [ft=#000033,2,    /home/sites/compshop/  
rsync -tvzrp --progress --password-file=/home/sites/rsyncd.secrets --delete --exclude  
/home/sites/datafeed/logs   [ft=#000033,2,    /home/sites/datafeed/  
rsync -tvzrp --progress --password-file=/home/sites/rsyncd.secrets --delete --exclude  
/home/sites/smtemplates/logs   [ft=#000033,2,    /home/sites/smtemplates/  
rsync -tvzrp --progress --password-file=/home/sites/rsyncd.secrets --delete --exclude  
/home/sites/smarterv2/logs   [ft=#000033,2,    /home/sites/smarterv2/  

chmod 744 /home/sites/sites_rsyncd  
vi /home/sites/rsyncd.secrets  
any  
chmod 600 /home/sites/rsyncd.secrets  
三、rsync命令的用法  
  在配置完rsync服务器后,就可以从客户端发出rsync命令来实现各种同步的操  
作。rsync有很  
多功能选项,下面就对介绍一下常用的选项:  
  rsync的命令格式可以为:  
  1. rsync [OPTION]... SRC [SRC]... [USER@]HOST:DEST  
  2. rsync [OPTION]... [USER@]HOST:SRC DEST  
  3. rsync [OPTION]... SRC [SRC]... DEST  
  4. rsync [OPTION]... [USER@]HOST::SRC [DEST]  
  5. rsync [OPTION]... SRC [SRC]... [USER@]HOST::DEST  
  6. rsync [OPTION]... rsync://[USER@]HOST[:PORT]/SRC [DEST]  
  rsync有六种不同的工作模式:  
  1. 拷贝本地文件;当SRC和DES路径信息都不包含有单个冒号":"分隔符时就启动这  
种工作模式。  
  2.使用一个远程shell程序(如rsh、ssh)来实现将本地机器的内容拷贝到远程机器  
。当DST  
路径地址包含单个冒号":"分隔符时启动该模式。  
  3.使用一个远程shell程序(如rsh、ssh)来实现将远程机器的内容拷贝到本地机器  
。当SRC  
地址路径包含单个冒号":"分隔符时启动该模式。  
  4. 从远程rsync服务器中拷贝文件到本地机。当SRC路径信息包含"::"分隔符时启动  
该模式。  
  5. 从本地机器拷贝文件到远程rsync服务器中。当DST路径信息包含"::"分隔符时启  
动该模式。  
  6. 列远程机的文件列表。这类似于rsync传输,不过只要在命令中省略掉本地机信  
息即可。  
  下面以实例来说明:  
  # rsync -vazu -progress   [ft=#000033,2,    /home  
  v详细提示  
  a以archive模式操作,复制目录、符号连接  
  z压缩  
  u只进行更新,防止本地新文件被重写,注意两者机器的时钟的同时  
  -progress指显示  
  以上命令是保持客户机192.168.100.90上的/home/terry目录和rsync服务器上的terry目  
录同  
步。该命令执行同步之前会要求你输入terry账号的密码,这个账号是我们前面  
在rsyncd.secrets  
文件中定义的。如果想将这条命令写到一个脚本中,然后定时执行它的话,可以使  
用--password-file  
选项,具体命令如下:  
  # rsync -vazu -progress --password-file=/etc/rsync.secret  
   [ft=#000033,2,    /home  
  要使用--password-file选项,就得先建立一个存放密码的文件,这里指定  
为/etc/rsync.secret。  
其内容很简单,如下:  
  terry:12345  
  同样要修改文件属性如下:  
  # chmod 600 /etc/rsyncd.secrets  
  四、利用rsync保持Linux服务器间的文件同步实例  
  现在假设有两台Linux服务器A(192.168.100.21)和B(192.168.100.90),服务器A中的  
/home/terry和服务器B中的/home/terry这两个目录需要保持同步,也就是当服务器A中文  
件发生  
改变后,服务器B中的文件也要对应去改变。  
  我们按上面的方法,在服务器A上安装rsync,并将其配置为一台rsync服务器,并  
将/home/terry  
目录配置成rsync共享出的目录。然后在服务器B上安装rsync,因为B只做客户端,所以  
无需配置。  
然后在服务器B,建立以下脚本:  
  #!/bin/bash  
  /usr/loca/rsync/bin/rsync -vazu -progress    --delete  
  --password-file=/etc/rsync.secret   [ft=#000033,2,    /home  
  将这个脚本保存为AtoB.sh,并加上可执行属性:  
  # chmod 755 /root/AtoB.sh  
  然后,通过crontab设定,让这个脚本每30分钟运行一次。执行命令:  
  # crontab -e  
  输入以下一行:  
  0,30 * * * *    /root/AtoB.sh  
  保存退出,这样服务器B每个小时的0分和30分时都会自动运行一  
次AtoB.sh,AtoB.sh是负责  
保持服务器B和服务器A同步的。这样就保证了服务器A的所有更新在30钟后,服务器B  
也一样取得了和服务器A一样的最新的资料。