小微数据量数据迁移方案

1. 将历史数据表和目标数据表转移到同一库

如果历史数据库和目标数据库是同一数据库,如都是mysql,可以使用一些工具软件如sqlyog等进行转移,或者导入导出即可;
如果历史数据库和目标数据库是不同的数据库,可以使用ETL工具kettle进行转移,kettle作为ETL工具功能非常强大,复杂的数据迁移可以全部在kettle中进行,由于我对kettle不够熟悉,这里仅仅使用到了它跨数据库进行数据复制的功能,数据的整理工作都是通过sql脚本实现的。

2. 清理多余字段(如全null字段,固定值字段)
ALTER TABLE Person
DROP COLUMN Birthday
3. 清理多余记录(如status=0)
4. 备份目标表
create table my_table_copy like my_table;
insert into my_table_copy select * from my_table;
5. 对应复制到目标表,顺便填写默认值
truncate table target_table;
INSERT INTO target_table (target_field)
select history_field from history_table;

如果存在类似“类型”的键值的列,新的key值与之前不同,迁移的时候存在一个对应关系,如果这个类型只有几种,可以迁移过来后update即可,如果较多,可以建立一张临时的对应关系表,在select的时候进行转换即可。

6. 做必要的进一步处理(如update某些特殊字段)

特殊字段如:

  • 如前台有每页10条的新闻图片,目前仅准备了10张图片,需要给每条新闻设置一个缩略图,在前台看起来每页没有重复图片
set @rownum=-1;
update news set thumb = CONCAT('/images/news_',(@rownum:=(@rownum+1)%10)+1,'.jpg');

这个迁移过程虽然简单,但实际操作也挺麻烦的,各种字段对应感觉非常乱套,本来想写篇博客梳理出一个清晰可操作性的步骤方案来,但是又好像没什么可总结的了,无非就是把数据复制过来整理整理而已,那就这样吧。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
/** * 源数据库库连接池配置 * */ ConnPoolConfig config = new ConnPoolConfig(); config.setMaxPoolSize(30); config.setInitialPoolSize(20); config.setUrl("jdbc:sqlserver://192.168.0.222;databaseName=ciems"); config.setDriverClass("com.microsoft.sqlserver.jdbc.SQLServerDriver"); config.setUsername("sa"); config.setPassword("Password2017"); /** * 源库 * "queryDB" DBManager的自定义名称 * config 连接池配置 */ DBManager queryDb = new DBManager("queryDB",config); /** * 目标数据库连接池配置 * */ ConnPoolConfig tarconfig = new ConnPoolConfig(); tarconfig.setMaxPoolSize(30); tarconfig.setInitialPoolSize(20); tarconfig.setDriverClass("com.mysql.jdbc.Driver"); tarconfig.setUrl("jdbc:mysql://localhost:3306/datatransfer?useUnicode=true&characterEncoding=UTF8&useSSL=true"); tarconfig.setPassword("accp"); tarconfig.setUsername("root"); /** * 目标库 */ DBManager insertDb = new DBManager("insertDB",config); /** *做数据导入处理时的接口 * */ InsertHandler handler = new DBInsertHandlerImpl("t_big_data",null,insertDb); /** * 迁移任务的配置,配置关键信息项 */ ApplicationConfig apConfig = new ApplicationConfig("t_big_data"); apConfig.setQueryThreadNum(8); //指定查询线程数量,不指定默认为8 apConfig.setDataNum(5000); //设置每次从源库中抽取的数量 不指定默认为5000 /** * 源表的匹配条件 * 如果希望源表中符合条件的才迁移,请配置此项,禁止加where,请按照以下格式 */ apConfig.setConditionSql("0=0"); /** * 入库方式 * ** * 增量入库 ZLRK, (暂未实现) * 追加入库 ZJRK, (目标库有源表结构的基础上,增加源表的所有数据到目标库中) * 刷新入库 SXRK, (删除目标库的源表结构,自动创建并导入数据) * 更新入库 GXRK (暂未实现) * ** */ apConfig.setInsertType(InsertType.SXRK); /** * 日志线程,开启时可更直观的从标准输出流里观察到运行状态,不指定默认关闭 */ apConfig.setOpenLogThread(true); /** * 生命周期接口,线程不完全 * 分别有以下几个生命周期方法 * createTableDone() 目标库被创建表结构时调用一次 * queryDone(boolean result, int start, int end, long time,Throwable e) * 有数据从源表中查询到数据时被调用,直到任务完成 * result 查询结果 * start 查询起始行 * end 查询结束行 * time 共耗时 单位:ms * e 查询失败时抛出的异常 * insertDone(boolean result, int num, int errorNum, long time,Throwable e) * 有数据导入到目的库时被调用,直到任务完成 * result 导入结果 * num 导入总数量 * errorNum异常数量 * e 导入失败时抛出的异常 * taskDone(int all, int doneNum, int errorNum, long time,List errorRows, List e) * 任务完成时被调用 * all 任务总数据量 * doneNum 已完成的数据量 * errorNum异常的数据量 * time 总耗时 * errorRows异常的行记录 * e 所有的异常 */ TaskRunLog runLog = new TaskRunLogImpl(); /*** * 任务迁移核心类 * 以下是构造方式之一 * ApplicationConfig apConfig:任务关键配置 * DBManager queryDb: 源库 * InsertHandler handler:导入处理器 */ DataThransferApplication app = new DataThransferApplication(apConfig,queryDb,handler,runLog); /** * 初始化任务 */ app.init(); /** * 任务开始 */ app.start();

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值