当业务上要做分库分表时,首先要解决的问题就是如何对原始数据进行迁移,即将原始的单表数据拆分到多表中去;通常有两种方案:
停机迁移
停机迁移,指将系统停止服务,禁止数据的写入操作,这样在迁移时就不用考虑增量数据,只需要将表中现有数据进行重新拆分即可,操作简单;但是系统的停用对业务影响会很大,大部分场景是无法做到完全停机发布的;但对于那些可以接受系统停机的业务,使用停机迁移绝对是一种最方便、快捷的方式。
不停机迁移
由于存在无法停机的业务场景,所以不停机迁移成为大多数分库分表数据迁移使用的首选方案;所谓不停机即指不停止服务,通过数据双写的方式对数据进行拆分,直到新拆分的表和原始表的数据一致后再进行分库分表的切换;
通过上图来简单描述下数据双写的处理机制;数据双写即是对增量数据的处理,原先只需要写入原始表的数据,为了做数据迁移同时也要写入分库分表目标表了;
通常也有两种处理方式,
● 图支线1
即在应用代码中要加入对DB2的写入逻辑;对于插入/删除操作,要同时插入/删除 DB2;对于更新操作,首先要判断是否在DB2中存在,不存在则做插入操作,存在则更新;由于要在应用中对数据进行双写的逻辑开发,另外可能还需要引入多数据源插件,对应用具有侵入性
● 图支线2
通过使用中间件对增量数据进行迁移,对应用零侵入,原应用也不需要引入多数据源插件,避免增加双写代码对系统稳定性增加负担;这里可以考虑使用canal中间件