Springboot集成datax方案小记
datax源码下载与编译
-
源码下载:
[https://github.com/alibaba/DataX](https://github.com/alibaba/DataX)
-
在idea中打开datax工程。可以看到工程下有很多maven module,其中大部分是datax插件,首先编译springboot工程必要的以下四个module:
- datax-common
- datax-core
- datax-transformer
- plugin-rdbms-util
datax编译过程中会发现有些引用在maven中央仓库和阿里镜像中都没有,回头上传一份儿过来。
-
编译插件
根据实际需求,编译数据读取和写入需要的各种reader和writer。如,需要从mysql库中读取数据,写入hive,则分别编译mysqlreader和hdfswriter。
编译插件必须使用命令mvn -U clean package assembly:assembly -Dmaven.test.skip=true
,编译成功后,到target文件夹找到类似datax/plugin/reader/mysqlreader
的目录,里面有编译好的jar包、引用库、插件描述文件和job模板示例文件,如:- lib/
- mysqlreader-0.0.1-SNAPSHOT.jar
- plugin.json
- plugin_job_template.json
-
在本地磁盘新建
datax_home
文件夹,作为程序运行的home文件夹。将datax工程目录下的core/src/main/conf
文件夹复制到datax_home文件夹下。 -
在
datax_home
下建立plugin/reader
和plugin/writer
文件夹,将先前编译成功的reader和writer插件分别放置于此目录。
datax job config
在执行datax数据传输任务前,需要完成任务配置。这部分内容网上有很多教程和示例,此处不赘述,只贴一个简单的demo。
{
"job": {
"settting": {
"speed": {
"channel": 3,
"byte": null
},
"errorLimit": null
},
"content": [{
"reader": {
"name": "postgresqlreader",
"parameter": {
"username": "数据库用户名",
"password": "数据库密码",
"where": "sql的where子句过滤条件",
"column": ["id", "name", "describe", "data_source_id", "read_sql"],
"splitPk": null,
"connection": [{
"table": ["要读取的表名"],
"jdbcUrl": ["数据库连接串"],
"querySql": null
}]
}
},
"writer": {
"name": "hdfswriter",
"parameter": {
"defaultFS": "写入hdfs的namenode地址",
"fileType": "hdfswriter仅支持TEXT和ORC",
"path": "/hdfs/t_user/",
"fileName": "t_user.TEXT",
"column": [{
"name": "id",
"type": "int"
}, {
"name": "name",
"type": "string"
}, {
"name": "age",
"type": "int"
}, {
"name": "sex",
"type": "string"
}, {
"name": "province",
"type": "string"
}],
"writeMode": "append",
"fieldDelimiter": ",",
"compress": null
}
}
}]
}
}
Springboot工程
pom.xml
需要配置以下引用
<dependency>
<groupId>com.alibaba.datax</groupId>
<artifactId>datax-common</artifactId>
<version>0.0.1-SNAPSHOT</version>
</dependency>
<dependency>
<groupId>com.alibaba.datax</groupId>
<artifactId>datax-core</artifactId>
<version>0.0.1-SNAPSHOT</version>
</dependency>
<dependency>
<groupId>com.alibaba.datax</groupId>
<artifactId>datax-transformer</artifactId>
<version>0.0.1-SNAPSHOT</version>
</dependency>
<dependency>
<groupId>com.alibaba.datax</groupId>
<artifactId>plugin-rdbms-util</artifactId>
<version>0.0.1-SNAPSHOT</version>
</dependency>
<dependency>
<groupId>com.fasterxml.jackson.core</groupId>
<artifactId>jackson-annotations</artifactId>
<version>2.10.5</version>
</dependency>
主运行程序
public void start(String jsonPath){
System.setProperty("datax.home", getHomePath());
String[] datxArgs = {"-job", jsonPath,
"-mode", "standalone",
"-jobid", "-1"};
try {
Engine.entry(datxArgs);
} catch (Throwable var6) {
log.error("\n\n经DataX智能分析,该任务最可能的错误原因是:\n" + ExceptionTracker.trace(var6));
}
}
代码讲解:
- jsonPath参数传入的是job的json配置文件路径;
- System.setProperty()方法向系统传入datax.home变量,其值是预先定义的
datax_home
文件夹的地址。
遇到的个掰倒霉问题
- java.lang.IllegalAccessError: class org.apache.hadoop.hdfs.web.HftpFileSystem cannot access its superinterface org.apache.hadoop.hdfs.web.TokenAspect$TokenManagementDelegator
出现该异常的原因是作者工程的其他模块中引用了hadoop-hdfs-2.7.1.jar
,出现了jar包引用冲突。解决方法是删除hdfswriter/hadoop-hdfs-*.jar
。
另
这篇文章是datax集成过程中遇到的各种问题解决后的小记,后续还有很多问题需要记录。