一款数据库比较与同步软件的设计与实现

1 、开发背景

我是做软件开发的,在项目实施过程中,经常遇到系统对接问题,需要将一个系统的数据同步到另一个系统,即需要做数据库的同步。

搜遍了各大网络,未找到适合的解决方案。现有的数据库系统,大多数只支持同型数据库之间的同步,不支持异型数据库同步,而现实中的数据库种类很多,相互间都可能需要同步;其它同步软件又太复杂,需要配置的东西太多,不适合交付给普通客户使用。

干脆,自己动手开发了这款 DBSync 软件,用于各种数据库之间的比较与同步,且力求简单实用。

2 、设计思想

传统的数据库同步,一般使用快照 + 事务日志的工作模式。用大白话来说,就是先把源数据整个复制到目标库,使得双方具有相同的起点;再启动监测程序,随时监测源数据的变化,一旦有更新操作(即事务),就将事务传递至目标库,在目标库中实施同样的更新,从而使得双方保持一致。

不同的数据库系统,事务日志的格式不同,按照这个模式设计的同步软件,只适用于同类型数据库的同步,如 SQL Server SQL Server Oracle Oracle 等。 DbSync 采取不同的同步策略,不再卷入具体的事务,而是直接访问事务的结果,即直接访问数据,通过扫描比较双方数据,找到相互间的差异,再将差异部分同步过去。按照这个模式, DbSync 就具有广泛的通用性,能用于各种数据库之间的同步。因为,无论什么样的数据库,也无论它怎么工作,最终的结果无非就是数据。

3 、功能及技术要点

3.1 使用 ADO.Net OleDbConnection 连接数据库,因此能连接各数据源,包括 Access SQL Server Oracle MySQL DB2 等常规数据库,也包括 Excel txt csv 等文件数据源。

3.2 既支持相同类型数据库之间的同步,如 Access Access SQL Server SQL Server ,又支持异型数据库之间的同步,如 Excel Access Access SQL Server SQL Server Oracle 等。

3.3 以任务为同步的基本单位,一个任务负责一对数据表之间的同步,多个数据表间的同步设置多个任务即可。

3.4 任务采取线程的方式运行,可并发启动、执行多个线程,因此可并发执行多个同步任务。

3.5 任务可设置为自动重复执行,只需预先设置好时间间隔,即可长期自动运行,从而实现无人值守同步。最短时间间隔可设置为 1 秒,几乎等同于实时同步。

3.6 提供断点续传能力,当同步中断后,再次同步时能从中断位置继续同步,避免每次都从头开始。

3.7 提供单独的数据比较功能,可对比两份数据,突出显示改动条目,修改情况一目了然。

4 、使用方法

4.1 主界面介绍

打开软件后进入主界面,显示同步任务列表,如下图所示:

1 DBSync 主界面

说明:

●数据比较: Click 任务列表中的“○”按钮,可比较双方数据,突出显示改动条目。

●数据同步: Click 任务列表中的“ ”按钮,立即开始同步。

●执行状态:实时显示同步进度信息,包括:已扫描的记录数、已同步(增删改)的记录数等。

●开始时间、结束时间、下次开始时间:显示每个任务执行的时间信息。

●日志: Click 任务列表中的“查看”按钮,可查看该任务的操作历史、同步历史。

●设置: Click 任务列表中的“修改”按钮,可修改任务设置。

4.2 同步任务设置

软件预设了 3 个同步任务,用作示范。要同步自己的数据,您必须根据自己的需要设置任务,指定源数据表、目标数据表,以及同步方式、同步频度等。 Click 主界面上的“新增”按钮,即可新增一个同步任务,进入 Step1

Step1 :选择源数据库、目标数据库

首先要指定源数据库、目标数据库,如下图所示:

2 DBSync 选择数据库

说明:本界面的用途是设置源数据库及目标数据库的连接字符串,使得 DBSync 能连接双方数据库。其中,界面上打星号( * )的栏位是必填的。填写完成后,请 Click 标签 2 ,进入 Step2

Step2 :选择源数据表、目标数据表

 

3 DBSync 选择数据表

说明:本界面的用途是选择源数据表及目标数据表。选择完成后,请 Click 标签 3 ,进入 Step3

Step3 :选择字段对应关系

 

4 DBSync 选择字段对应关系

说明:本界面的用途是选择字段对应关系,即:源字段以及对应的目标字段。如果您需要做增量同步,这里必须选择主键字段。主键字段是记录的唯一标志,它用于判别同步双方是否存在对应记录。选择完成后,请 Click 标签 4 ,进入 Step4

Step4 :选择同步方式及频度

 

5 DBSync 同步方式及频度

说明:本界面的用途是选择同步方式及频度。

1 )同步方式:

●全部新增( Insert )至目标表:是指将源数据表中的数据全部 Insert 到目标数据表。

●仅同步增量数据:是指以主键字段为记录标识,查找相互间的差异,只同步差异部分(即增量部分),而相同部分不同步。

2 )执行频度:

●手动点击“开始”执行:是指每次同步都由用户 Click 任务列表中的“ ”来执行。

●手动,然后自动重复执行:是指由用户 Click ”开始第一次执行,同步结束后,程序会按照预定时间间隔自动重复执行。只要程序不关闭,同步操作就会一直持续下去,从而实现无人值守同步。

3 )同步范围:

属于高级选项,可填写 Select * From...Where... 形式的 SQL 语句,每次同步前会执行,用于进一步限定参与同步的数据范围。

4 )同步后处理:

属于高级选项,可填写 Update SQL 语句,每次同步后会执行,用于数据回写、数据转换、公式计算等额外任务。

4.3 数据比较界面

设置好同步任务后, Click 任务列表中的“○”按钮,进入扫描与比较界面,如下图所示:

6 DBSync 扫描与比较界面

说明:本界面的用途是比较双方数据,找出数据差异(即增量)。该界面不实施同步,仅展示增量数据,其中的红色部分为已修改字段,移动鼠标过去能显示修改前的原值。

5 、核心算法及提速措施

数据库产品的一个重要指标就是速度,同步软件也不例外。同步一般分两个步骤:先快照或复制过去,再监测更新并同步更新。前者类似于文件复制,是最初的一次性的动作;后者是长期的随时要做的动作,因此,重点在于更新速度。

传统同步软件通过事务日志进行更新,虽然不通用,但速度快,几乎是实时同步的效果; DBSync 使用扫描比较判断更新,虽然通用,但速度可能较慢。为此, DBSync 提供一种机制,使得每次同步仅扫描比较增量数据,从而大幅提速。

为了深入理解提速原理,我们先了解一下扫描比较的核心算法:首先, DBSync 会读取双方的数据,并按主键字段排序;然后,以主键字段值为记录标识,依次比较双方的记录。对于源数据表存在而目标表不存在的记录,视作新增增量;对于目标数据表存在而源数据表不存在的记录,视作删除增量;对于源数据表与目标数据表均存在的记录,则继续比较其它字段,其它字段有差异的,视作修改增量;无差异的,则为相同数据。

一般来说,同步是定期重复执行的,两次同步间的增量非常有限,绝大部分是未变化的相同数据。比如,一个记录数为百万级的数据表,如果每 5 秒同步一次, 5 秒内的增量是很少的,通常也就几十条记录,与百万级总量相比几乎是忽略不计的。因此,简单的全表扫描比较会浪费大量时间,提速思路就是排除相同数据的无意义比较,仅扫描比较增量数据。具体措施:

5.1 在源数据库中创建一个表,用于记录每次同步的完成时间,例如:表名 DBSync ,含一个字段 SyncDate ,其中的 SyncDate 初始化为一个很小的值,如: 1900-1-1

5.2 对于新增、修改增量,单独用一个任务来执行,并在 Step4 设置回写 SQL ,向源数据库写入同步完成时间,如: UPDATE DBSync set SyncDate=getdate() ;再限定源数据范围,如: SELECT a.* FROM Customer AS a, DBSync AS b where a.CreateTime>=b.SyncDate or a.UpdateTime>=b.SyncDate 。如下图所示:

7 DBSync 限定扫描范围

这样,第一次同步会全表扫描比较,以后同步就根据 SyncDate 仅提取增量数据,扫描比较的数量就大幅减少,速度自然也大幅提升。

利用此方案,需要注意的是,源数据表必须有 CreateTime UpdateTime 字段,分别记有数据的新增时间、修改时间。

5.3 对于删除增量,用另一个任务来执行。由于该任务只比较双方的主键,不比较其它字段,即使不限定数据范围,速度也很快。

6 、性能测试报告

测试环境:最普通的电脑,双核 CPU E7500 ,主频 2.75G ,内存 2G

数据库情况:源数据库、目标数据库均为 SQL Server ,位于同一台电脑上;源数据表、目标数据表均为 Customer 表,均含 10 个字段、 100 万条数据;源数据表含有增、删、改数据各 100 条,共 300 条增量。

任务设置情况:按照上述提速策略,安排 2 个任务来进行,任务 4 用于同步源数据库中的新增、修改增量,任务 5 用于同步删除增量。

任务执行结果:截图如下:

8 DBSync 速度测试

说明:对于新增、修改增量的同步, 4 秒钟完成;对于删除增量的同步, 6 秒钟完成。

 

结论: DBSync 的优点是支持各种数据库,简单易用。缺点是速度稍慢,记录数为百万级的数据库同步,一般需要数秒钟才能完成;千万级的,约 1 分钟才能完成;亿级的,约数分钟才能完成。另外, DBSync 只同步数据,不同步索引、触发器、存储过程等其它设置。

 


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/30235376/viewspace-2638127/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/30235376/viewspace-2638127/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值