需求是这样的,在A数据库实例中定时读取大批量数据(这里暂定20w),然后在B数据库实例中,将读取的20w数据写入B数据库实例中的表(表里有3000w的数据),插入前判断条件用户ID,存在更新,不存在则插入。
如果是几万条以下的数据,这很简单。读取数据--foreach --- 查询是否存在---更新或插入。
但是真是情况是千万级别的数据。这样做非要挑战语言的承受能力和服务器配置的底线啊。必崩盘
搞了一天,总结出几个关键的解决点
- 利用 INSERT ... ON DUPLICATE KEY UPDATE Statement
- 直接使用shell执行大批量sql语句
好。有了方向就可以穿插起来
1方案有前提条件,就是这A数据库读取的字段需要在B数据库中对应的至少一个字段是唯一的。额。。。好像有点绕,意思就是能触发 ON DUPLICATE KEY ,这个看自己已经建好的数据库是否方便更改,我们就是不方便所以没有使用该方案。
2方案就很笨的方法了,在读取20w数据后,foreach 将要执行的sql拼接,写入一个file.sql ,然后在写入后,执行一个linux的.sh文件,文件里怎么执行刚刚的sql文件请自行百度。这里只提供思路
这两个方案效率都可以,数据这10-20左右,具体看你服务器配置了
有问题欢迎下方留言,或者加群 8989 0449 一起学习