场景
清洗数据,每天大概要清洗2000万条数据量; 数据源是别的项目组接口提供,我这边需要进行的处理是
整理数据后入库
分析
初始化数据的时候 大概是先要执行20亿的数据
选数据库
结论: 数据库的类型选MyisAm
原因:
1.
执行效率有10倍的差距
innodb autocommit 默认开启,这个机制在大数据的多表查询的时候 极其消耗资源的
线下实验 单批1万条数据 (最大分成100张表) 执行update insert 操作, 控制其他变量
3个小时后 MyisAm 稳定在6秒 innodb 在60秒,且随着脚本的运行消耗的时间越来越长
2.
注意: innodb 当然是可以执行关闭autocommit操作的, 但是由于我的这些数据的重要程度
没有那么大,所以不需要使用事务
接口的写法以及其他技巧
`稍后写 ...`