Datax抽取oracle大表问题

最近经常用到datax从oracle抽取大表到数仓hive

当表的数据量超过千万 很容易卡住 一直抽不过来

经过测试可以在querysql上加并行抽取

/*+ parallel(n) */  

基于并行查询要启动并行进程、分配任务与系统资源、合并结果集
一般而言主要在如下情况使用parallel
1.表的数据量很大,超过一千万; 
2.数据库主机是多个CPU;
3.系统的当前负载较低;

但这个容易直接把资源占死 导致别人无法抽取业务数据库 需要做测试再正式上线

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DataX抽取Oracle数据时,如果字段中存在分隔符,可以采取以下解决方案。首先,可以修改建分隔符,使用alter table语句将建分隔符修改为与导入时的分隔符一致。例如,可以使用以下语句修改建分隔符: ``` alter table table_name set serdeproperties('field.delim'='\t'); ``` 另外,也可以在建时直接指定好分隔符,使用create table语句创建时,通过row format delimited fields terminated by语句指定字段的分隔符。例如: ``` create table table_name( column1 datatype, column2 datatype ) row format delimited fields terminated by '\t'; ``` 此外,还需要注意分区和无分区的区别。对于分区,需要在建语句中添加partitioned by语句指定分区字段。 另外,如果目标的存储格式为textfile,默认的列分隔符为\001,默认的行分隔符为\n。如果在Oracle源数据中存在\n作为行分隔符,会导致字段错位和数据量增加。为了解决这个问题,可以将源数据中的\n替换为其他字符,或者在导入时指定行分隔符为其他字符。 最后,如果需要在DataX中指定筛选条件,可以使用MysqlReader,并根据指定的column、table和where条件拼接SQL进行数据抽取。在实际业务场景中,通常会选择同步当天的数据,可以将where条件指定为gmt_create > $bizdate。需要注意的是,不可以将where条件指定为limit 10,因为limit不是SQL的合法where子句。 综上所述,可以通过修改建分隔符、指定分隔符、替换行分隔符以及指定筛选条件等方式解决DataX抽取Oracle数据字段中存在分隔符的问题

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值