近期有一个行业项目,需要把较大数据从文件中导入到oracle

我们使用oraclesqlldr导入数据,当数据量较大时导入的时间过长:导入一张8千万条记录的表需要2.5个小时,太慢了。

后来采用了sqlldr并行导入的方式将时间缩短到了0.8小时,这里记录一下使用过程。

思路

    将要导入的数据文件拆分成10份,然后使用多任务并行执行对应数据份数的sqlldr命令(当然也就需要同样数量的control文件),多个客户端同时往数据库中导入数据。

这里有两点比较重要,1、如何自动生成若干条sqlldr命令和若干个control文件(一个个写有点累);2、如何同时并行执行(一个个去执行就更累了)。

这里借助了集算器这个工具完成自动生成命令和控制文件,再并行执行。

实现步骤

主程序

    负责任务控制,任务分配、调用子程序。

wKioL1PrA_ni7olrAAEtq8yTtOs482.jpg



子程序

     生成具体control文件和sqlldr命令,并执行导入命令完成数据加载

wKiom1PrAuKgPbctAAGgb9EpE2Y398.jpg

【注】这里使用了集算器的并行机制来同时执行多个sqlldr命令;使用system函数调用系统命令。

实际效果

    由于是程序控制的并行任务,所以可以根据实际需要设置并行任务数,将机器性能发挥到最优。

下图记录了不同并行数情况下sqlldr导入速度,总体是呈线性增长的,并发任务越多,导入速度越快。

wKioL1PrA_vg5lZIAACehW8v0Y8881.jpg