oracle外部表加载文本文件,如何利用Oracle外部表导入文本文件的数据

同事最近在忙数据一致性比对工作,需要对不同文本文件中的数据进行比对,有的文件较大,记录较多,如果用普通的文本编辑器打开的话,很显然,会很卡,甚至打不开。

基于此,可将该文本文件的数据导入到数据库中,在集合的层面进行比对。

那么如何将文本文件的数据导入到数据库中呢?在这里,主要利用了Oracle的外部表特性。

Oracle外部表支持两种类型的驱动:一种是ORACLE_LOADER,外部表的数据必须来源于文件文件,另一种则是ORACLE_DATAPUMP,外部表的数据必须是二进制dump文件,该dump文件是先前将Oracle内部表的数据导入到外部表中填充的文件。很显然,Oracle希望将数据保留在数据库内部进行处理。

首先,我们来看一下该文本文件的大小及记录。

[oracle@node2 ~]$ du -sm P_20150626010000_2002371.0003479598

274 P_20150626010000_2002371.0003479598[oracle@node2~]$ wc -l P_20150626010000_2002371.0003479598

2899265 P_20150626010000_2002371.0003479598

从上面的输出可以看出,该文件274M,有2899265条记录。

其次,构建创建外部表语句。

CREATE TABLEemp_load

(subsidnumber(18),

servnumberVARCHAR2(20 CHAR),

subsprodidNUMBER(18),

prodidVARCHAR2(32 CHAR),

startdate date,

enddate date,

ownerVARCHAR2(4 CHAR))

ORGANIZATION EXTERNAL

(TYPE ORACLE_LOADERDEFAULTDIRECTORY tmp

ACCESS PARAMETERS

(RECORDS DELIMITEDBYNEWLINE

FIELDS TERMINATEDBY "|"

( subsidDECIMALEXTERNAL,

servnumberCHAR(20),

subsprodidDECIMALEXTERNAL,

prodidCHAR(32),

startdate date "yyyymmddhh24miss",

enddate date "yyyymmddhh24miss",

ownerCHAR(4)

)

)

LOCATION ('P_20150626010000_2002371.0003479598')

);

注意,目录tmp必须存在,因为我是在scott用户下执行的,所以scott用户必须对该路径有读写权限。

第三、在scott用户下执行该建表语句。

第四、查看生成的外部表是否有问题

SQL> select count(*) fromemp_load;COUNT(*)------------------

2899265

记录与wc-l查看的记录数吻合。

注意,建表过程中没有报错并不一定意味着数据已经成功加载在外部表中。必须通过查询外部表来判定数据是否已成功加载,倘若有错误提示,可参看当前目录下生成的日志文件,具体在本例中,是EMP_LOAD_2000.bad和EMP_LOAD_2000.log。

当然,外部表中的数据只能查询,不能做DML操作,譬如,随机删除表中的一条数据

SQL> delete from emp_load where rownum=1;delete from emp_load where rownum=1

*ERROR at line1:

ORA-30657: operation not supported on external organized table

如果想对该外部表数据进行DML操作,可先将外部表的数据导入到内部表中。具体步骤如下:

SQL> create table test as select * from emp_load where 1=0;Tablecreated.

Elapsed:00:00:00.26SQL> INSERT /*+ APPEND*/ INTO test select * fromemp_load;2899265rows created.

Elapsed:00:01:00.29SQL> select * from test where rownum<=100;select * from test where rownum<=100

*ERROR at line1:

ORA-12838: cannot read/modify an object after modifying it inparallel

Elapsed:00:00:00.10SQL> commit;Commitcomplete.

Elapsed:00:00:00.07SQL> select * from test where rownum<=100;

在这里,为了节省时间,我用了直接路径插入,可以看出,插入近300万数据,只用了1分左右的时间,考虑到我虚拟机上的数据库,只给它分配了300M的内存,加载的效率还是相当可观的。

SQL>show parameter memory

NAME TYPE VALUE------------------------------------ ----------- ------------------------------

hi_shared_memory_address integer 0memory_max_target biginteger300M

memory_target biginteger300M

shared_memory_addressinteger 0

注意:在SQL*PLUS中,number字段的输出默认为10,这样会导致对于937116510102250300这样的数值,可能会显示为9.3712E+17,在这里,可通过set numwidth 18来显示完整的number字段的值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值