dataX工具(可执行的资源包),源码的下载和部署请参考上一篇博文:https://blog.csdn.net/qq_15903671/article/details/88862619
dataX工具包从官网下载之后可以发现他加压后有将近1G的大小。显然我们不希望一个ETL工具太大。以下的博文我将从dataX源码中保留oraclereader插件和hdfswrtier插件,重新对dataX进行打包使用。主要包括:按需打包dataX插件,配置json控制文件,测试。
一、保留部分插件重新打包dataX
原生的dataX结构是稳定的框架配合可横向扩展的插件,主要分reader和writer插件,基本上主流的数据存储工具都有配好的reader和writer了。使用时可以根据需要保留部分插件。
1.1 修改pom.xml文件
在DataX-master根目录下的pom.xml文件将核心组件、公共组件、reader/writer插件都以module的方式组装到一起,把不需要的注释掉就行了。
如图所示,我只保留了oraclereader和hdfswriter,因为后面我需要从oracle中抽取数据到hadoop-hive的orc表中。