一、之前为了避免一个xml文件太大,不好处理,设置每个xml文件放置一千条数据,分多个文件存放。
缺点:每次从数据源抽取数据,如果数据只有几千条,生成几个文件,入库的时候不好处理,不知道生成了多少个文件以及不知道文件到齐了没有。
优化:生成xml文件的记录数参数化,全部数据放在同一文件下,也可以拆分,增加不切换xml文件的功能,全部数据可以放在同一文件里,也可以选择拆分。
二、大数据量的入库
大事务:运行时间比较长,操作数据比较多的事务(5000条记录或2M数据)。
大事务的风险:1、锁定太多的数据,大量的阻塞和锁超时;2、执行时间长,容易造成主从延迟;3、undo log膨胀
解决方法:通过创建临时表,插入数据、删除正式表drop、把临时表改为正式表,几千条数据提交一次事务的方法
三、
- 一张表有多少数据
- 能处理多少数据
- 处理过大数据的情况吗