修改Sqoop1.4.6源码实现--fields-terminated-by选项支持多字节分隔符
最近项目中需要使用sqoop实现oracle与hdfs的数据交换,从oracle数据表导入到hdfs集群,以及把hdfs数据导出到oracle数据表。客户要求Hdfs文本文件中,字段分隔符必须是“|@|”。然而发现sqoop的—fields-terminated-by选项只能支持单字节分隔符,无法支持多字节分隔符,难以满足要求。上网搜索了一下,并没有太多公开资料能较好的解决这个问题。这篇文章(http://www.cnblogs.com/YFYkuner/p/3748495.html)是通过修改codegen生成的Java代码,再编译实现多字节分隔。不过这种办法还不够通用,并不能完全满足我的需求。但通过这篇文章可以学习到,分隔符主要是在DelimiterSet这个类定义。所以,我打算修改sqoop的源代码,使其支持多字节分隔。
1. Sqoop工作原理
Sqoop在进行导入导出任务时,都会先自动生成一个java文件,并编译打成jar包,再提交到hadoop集群真正执行MapReduce任务。可以先阅读sqoop自动生成的java文件,看看其中数据导入导出的接口,以及分隔符如何被使用。这样可以有一个整体的印象。参考http://www.cnblogs.com/YFYkuner/p/3748495.html
2. 核心代码修改
2.1. 分隔符DelimiterSet的修改
首先了解一下分隔符org.apache.sqoop.lib.DelimiterSet的定义。