大数据学习——dataX源码重新打包+测试

本文介绍了如何从dataX源码中仅保留oraclereader和hdfswriter插件,重新打包dataX工具,减小其体积。首先修改pom.xml和package.xml,移除不必要的插件。接着使用maven进行打包,然后配置json控制文件以适应oraclereader和hdfswriter,最后进行测试。
摘要由CSDN通过智能技术生成

dataX工具(可执行的资源包),源码的下载和部署请参考上一篇博文:https://blog.csdn.net/qq_15903671/article/details/88862619

dataX工具包从官网下载之后可以发现他加压后有将近1G的大小。显然我们不希望一个ETL工具太大。以下的博文我将从dataX源码中保留oraclereader插件和hdfswrtier插件,重新对dataX进行打包使用。主要包括:按需打包dataX插件,配置json控制文件,测试。

一、保留部分插件重新打包dataX

原生的dataX结构是稳定的框架配合可横向扩展的插件,主要分reader和writer插件,基本上主流的数据存储工具都有配好的reader和writer了。使用时可以根据需要保留部分插件。

1.1 修改pom.xml文件

在DataX-master根目录下的pom.xml文件将核心组件、公共组件、reader/writer插件都以module的方式组装到一起,把不需要的注释掉就行了。

如图所示,我只保留了oraclereader和hdfswriter,因为后面我需要从oracle中抽取数据到hadoop-hive的orc表中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值