前阵子跟舍友聊天,谈到一个数据库优化的问题,这让我回想起项目中遇到类似的问题。有一个项目需求是这样的:后台事务会生成几百条甚至上千条记录,程序需要将这些记录插入到DB。新进来的程序员,他直接通过for循环,一条一条的将数据插入DB。
因为这个后来事务每天晚上都要运行数个小时,它运行的时间,远远超出预期。客户要求优化这个方法,我们第一个反应是要求客户加硬件,放到内存,修改oracle的内存
参数,然后加Index。经过这样的修改,发现还是不能满足客户的要求,时间也没有缩短很多。后来我们的主管亲自操刀,直接从程序的角度入手,把for循环改为批量插入,
性能提升了数倍。
对于这个问题,我的看法是:
- 对于初级程序员,这种错误是可以犯的。我现在维护的很多代码,发现都是For循环来插入的。
- 批量插入,节省了连接数据库的时间。也就是说,两千条记录以内,服务端只需要跟数据库进行一次连接。如果是for循环,需要2000次连接,2000次的网络传输。这个 时间是惊人。
- 尽量让Oracle多做工作。程序员不用理会它2000记录,oracle是一次性插入还是通过for循环插入,即使是for循环插入,人家的性能也比程序的for循环强。所以,对于查询的order by,group by等。只有很笨的程序员才会把数据查出来后,自己做order by或者group by.Oracle对这方法强的得多了。
批量