datax-hdfsReader空目录报错

今天同事遇到了一个问题。 就是hdfsreader->mysqlwriter这种的时候。

有的分区没有数据会报错。

.DataXException: Code:[HdfsReader-08], Description:[您尝试读取的文件目录为空.].  - 未能找到待读取的文件,请确认您的配置项path: /user/hive/warehouse/dwdmdata.db/dm_tax_f_income_account_detail_y/year_id=2022/ou_code=105

问题很简单,因为该分区下没有数据文件所以报错。

这个解决也很容易。

1.当时想的是在shell里判断分区路径是否存在 然后hdfs dfs -ls /path |wc -l 看文件个数是否>0

   后来发现这种不是很可取。

2.当时就觉得这种判断不太对,以前其他reader的时候怎么不见报错,hdfsReader就报错是吧。

   哪里报错丢异常 我改成 warn就好了。

找到报错点

955b02e141a5433eae314472169c7757.png 

 那全部原因就是 emptyDirIsExecption 再看

/**emptyDirIsExecption  默认值为true,当指定为false,空目录任务会返回成功,同步记录数为0**/
private Boolean emptyDirIsExecption=null;

再看,这里就是很清楚了

emptyDirIsExecption = this.readerOriginConfig.getBool(Key.EMPTY_DIR_IS_EXECPTION, true);

 我们设置在json里设置 emptyDirIsExecption=false即可。

f6e24e2e714d4c2caecfcdd9def30aa5.png

————————————————————————————————————————

至此你以为我就研究完了。前面提到了hdfsreader->mysqlwriter。在刚刚的报错过程中发现了一个问题或者说bug?

9dcdfc86ae8047e9a0c02da2e59d09a8.png

hdfsReader报错很正常。但是这里把mysql的presql也执行了。

由此有个疑问 writer和reader那个先运行? 一起还是分先后?

先思考下。

如果writer先reader后。这样writer先执行presql 然后等reader的数据进来,节约了时间

如果writer后reader先。 好处是reader先读数据 如果都没读到,writer都不用启动了。

我们再看看datax是怎么思考的。

4bb622519ea848afbbf60f693a13545f.png

 所以 我上面思考的还是太简单了。

所有的pre post split 几乎都是同一时刻完成的。

当然真正的传输数据是在schedule的时候完成的。 那么我现在需要如果hdfs reader没有数据也不执行writer的presql怎么做呢?

1.按照我上面的第一种办法 在shell里判断文件个数,可以直接跳过datax结束任务

2.还是改源码? hdfs判断文件数是在split()方法里。我们看split方法

0ab7a341d1f84352b7a69cd3e1d48e59.png

 很明显hdfsreader这里会读取到0个文件。当我加了参数emptyDirIsExecption=false后 这里=1

然后走mysql的split方法后面会按照split的个数切分任务就不罗嗦了

40e19bae2ead475b9068eb99fc108735.png

 按照datax的逻辑 走到这的时候presql已经执行了。

再仔细看看 job有prepare ,task有prepare

9581e21cfbf447ecb52fe1729f52df83.png

我们点进方法发现 如果tableNumber=1就是执行job的presql  如果tableNumber>1执行task的presql;

我只能说datax想的很好。但是感觉这个不可行。

比如hdfs  表student到mysql 的student1 和student2;我的presql是truncate table student1;truncate table student2;

那么执行每个task的时候都要truncate下。。好像不是很合理吧。

按照我的需求好像把presql放到task里执行比较合理。但是呢感觉有问题。

———————————————未完待续,有时间搞下—————————————————

 

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值