1 、开发背景
我是做软件开发的,在项目实施过程中,经常遇到系统对接问题,需要将一个系统的数据同步到另一个系统,即需要做数据库的同步。
搜遍了各大网络,未找到适合的解决方案。现有的数据库系统,大多数只支持同型数据库之间的同步,不支持异型数据库同步,而现实中的数据库种类很多,相互间都可能需要同步;其它同步软件又太复杂,需要配置的东西太多,不适合交付给普通客户使用。
干脆,自己动手开发了这款 DBSync 软件,用于各种数据库之间的比较与同步,且力求简单实用。
2 、设计思想
传统的数据库同步,一般使用快照 + 事务日志的工作模式。用大白话来说,就是先把源数据整个复制到目标库,使得双方具有相同的起点;再启动监测程序,随时监测源数据的变化,一旦有更新操作(即事务),就将事务传递至目标库,在目标库中实施同样的更新,从而使得双方保持一致。
不同的数据库系统,事务日志的格式不同,按照这个模式设计的同步软件,只适用于同类型数据库的同步,如 SQL Server 到 SQL Server , Oracle 到 Oracle 等。 DbSync 采取不同的同步策略,不再卷入具体的事务,而是直接访问事务的结果,即直接访问数据,通过扫描比较双方数据,找到相互间的差异,再将差异部分同步过去。按照这个模式, DbSync 就具有广泛的通用性,能用于各种数据库之间的同步。因为,无论什么样的数据库,也无论它怎么工作,最终的结果无非就是数据。
3 、功能及技术要点
3.1 使用 ADO.Net 的 OleDbConnection 连接数据库,因此能连接各数据源,包括 Access 、 SQL Server 、 Oracle 、 MySQL 、 DB2 等常规数据库,也包括 Excel 、 txt 、 csv 等文件数据源。
3.2 既支持相同类型数据库之间的同步,如 Access 到 Access 、 SQL Server 到 SQL Server ,又支持异型数据库之间的同步,如 Excel 到 Access 、 Access 到 SQL Server 、 SQL Server 到 Oracle 等。
3.3 以任务为同步的基本单位,一个任务负责一对数据表之间的同步,多个数据表间的同步设置多个任务即可。
3.4 任务采取线程的方式运行,可并发启动、执行多个线程,因此可并发执行多个同步任务。
3.5 任务可设置为自动重复执行,只需预先设置好时间间隔,即可长期自动运行,从而实现无人值守同步。最短时间间隔可设置为 1 秒,几乎等同于实时同步。
3.6 提供断点续传能力,当同步中断后,再次同步时能从中断位置继续同步,避免每次都从头开始。
3.7 提供单独的数据比较功能,可对比两份数据,突出显示改动条目,修改情况一目了然。
4 、使用方法
4.1 主界面介绍
打开软件后进入主界面,显示同步任务列表,如下图所示:
图 1 : DBSync 主界面
说明:
●数据比较: Click 任务列表中的“○”按钮,可比较双方数据,突出显示改动条目。
●数据同步: Click 任务列表中的“ ► ”按钮,立即开始同步。
●执行状态:实时显示同步进度信息,包括:已扫描的记录数、已同步(增删改)的记录数等。
●开始时间、结束时间、下次开始时间:显示每个任务执行的时间信息。
●日志: Click 任务列表中的“查看”按钮,可查看该任务的操作历史、同步历史。
●设置: Click 任务列表中的“修改”按钮,可修改任务设置。
4.2 同步任务设置
软件预设了 3 个同步任务,用作示范。要同步自己的数据,您必须根据自己的需要设置任务,指定源数据表、目标数据表,以及同步方式、同步频度等。 Click 主界面上的“新增”按钮,即可新增一个同步任务,进入 Step1 。
Step1 :选择源数据库、目标数据库
首先要指定源数据库、目标数据库,如下图所示:
图 2 : DBSync 选择数据库
说明:本界面的用途是设置源数据库及目标数据库的连接字符串,使得 DBSync 能连接双方数据库。其中,界面上打星号( * )的栏位是必填的。填写完成后,请 Click 标签 2 ,进入 Step2 。
Step2 :选择源数据表、目标数据表
图 3 : DBSync 选择数据表
说明:本界面的用途是选择源数据表及目标数据表。选择完成后,请 Click 标签 3 ,进入 Step3 。
Step3 :选择字段对应关系
图 4 : DBSync 选择字段对应关系
说明:本界面的用途是选择字段对应关系,即:源字段以及对应的目标字段。如果您需要做增量同步,这里必须选择主键字段。主键字段是记录的唯一标志,它用于判别同步双方是否存在对应记录。选择完成后,请 Click 标签 4 ,进入 Step4 。
Step4 :选择同步方式及频度
图 5 : DBSync 同步方式及频度
说明:本界面的用途是选择同步方式及频度。
( 1 )同步方式:
●全部新增( Insert )至目标表:是指将源数据表中的数据全部 Insert 到目标数据表。
●仅同步增量数据:是指以主键字段为记录标识,查找相互间的差异,只同步差异部分(即增量部分),而相同部分不同步。
( 2 )执行频度:
●手动点击“开始”执行:是指每次同步都由用户 Click 任务列表中的“ ► ”来执行。
●手动,然后自动重复执行:是指由用户 Click “ ► ”开始第一次执行,同步结束后,程序会按照预定时间间隔自动重复执行。只要程序不关闭,同步操作就会一直持续下去,从而实现无人值守同步。
( 3 )同步范围:
属于高级选项,可填写 Select * From...Where... 形式的 SQL 语句,每次同步前会执行,用于进一步限定参与同步的数据范围。
( 4 )同步后处理:
属于高级选项,可填写 Update SQL 语句,每次同步后会执行,用于数据回写、数据转换、公式计算等额外任务。
4.3 数据比较界面
设置好同步任务后, Click 任务列表中的“○”按钮,进入扫描与比较界面,如下图所示:
图 6 : DBSync 扫描与比较界面
说明:本界面的用途是比较双方数据,找出数据差异(即增量)。该界面不实施同步,仅展示增量数据,其中的红色部分为已修改字段,移动鼠标过去能显示修改前的原值。
5 、核心算法及提速措施
数据库产品的一个重要指标就是速度,同步软件也不例外。同步一般分两个步骤:先快照或复制过去,再监测更新并同步更新。前者类似于文件复制,是最初的一次性的动作;后者是长期的随时要做的动作,因此,重点在于更新速度。
传统同步软件通过事务日志进行更新,虽然不通用,但速度快,几乎是实时同步的效果; DBSync 使用扫描比较判断更新,虽然通用,但速度可能较慢。为此, DBSync 提供一种机制,使得每次同步仅扫描比较增量数据,从而大幅提速。
为了深入理解提速原理,我们先了解一下扫描比较的核心算法:首先, DBSync 会读取双方的数据,并按主键字段排序;然后,以主键字段值为记录标识,依次比较双方的记录。对于源数据表存在而目标表不存在的记录,视作新增增量;对于目标数据表存在而源数据表不存在的记录,视作删除增量;对于源数据表与目标数据表均存在的记录,则继续比较其它字段,其它字段有差异的,视作修改增量;无差异的,则为相同数据。
一般来说,同步是定期重复执行的,两次同步间的增量非常有限,绝大部分是未变化的相同数据。比如,一个记录数为百万级的数据表,如果每 5 秒同步一次, 5 秒内的增量是很少的,通常也就几十条记录,与百万级总量相比几乎是忽略不计的。因此,简单的全表扫描比较会浪费大量时间,提速思路就是排除相同数据的无意义比较,仅扫描比较增量数据。具体措施:
5.1 在源数据库中创建一个表,用于记录每次同步的完成时间,例如:表名 DBSync ,含一个字段 SyncDate ,其中的 SyncDate 初始化为一个很小的值,如: 1900-1-1
5.2 对于新增、修改增量,单独用一个任务来执行,并在 Step4 设置回写 SQL ,向源数据库写入同步完成时间,如: UPDATE DBSync set SyncDate=getdate() ;再限定源数据范围,如: SELECT a.* FROM Customer AS a, DBSync AS b where a.CreateTime>=b.SyncDate or a.UpdateTime>=b.SyncDate 。如下图所示:
图 7 : DBSync 限定扫描范围
这样,第一次同步会全表扫描比较,以后同步就根据 SyncDate 仅提取增量数据,扫描比较的数量就大幅减少,速度自然也大幅提升。
利用此方案,需要注意的是,源数据表必须有 CreateTime 、 UpdateTime 字段,分别记有数据的新增时间、修改时间。
5.3 对于删除增量,用另一个任务来执行。由于该任务只比较双方的主键,不比较其它字段,即使不限定数据范围,速度也很快。
6 、性能测试报告
测试环境:最普通的电脑,双核 CPU , E7500 ,主频 2.75G ,内存 2G 。
数据库情况:源数据库、目标数据库均为 SQL Server ,位于同一台电脑上;源数据表、目标数据表均为 Customer 表,均含 10 个字段、 100 万条数据;源数据表含有增、删、改数据各 100 条,共 300 条增量。
任务设置情况:按照上述提速策略,安排 2 个任务来进行,任务 4 用于同步源数据库中的新增、修改增量,任务 5 用于同步删除增量。
任务执行结果:截图如下:
图 8 : DBSync 速度测试
说明:对于新增、修改增量的同步, 4 秒钟完成;对于删除增量的同步, 6 秒钟完成。
结论: DBSync 的优点是支持各种数据库,简单易用。缺点是速度稍慢,记录数为百万级的数据库同步,一般需要数秒钟才能完成;千万级的,约 1 分钟才能完成;亿级的,约数分钟才能完成。另外, DBSync 只同步数据,不同步索引、触发器、存储过程等其它设置。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/30235376/viewspace-2638127/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/30235376/viewspace-2638127/