Springboot集成datax方案小记

datax源码下载与编译

  1. 源码下载:[https://github.com/alibaba/DataX](https://github.com/alibaba/DataX)

  2. 在idea中打开datax工程。可以看到工程下有很多maven module,其中大部分是datax插件,首先编译springboot工程必要的以下四个module:

    • datax-common
    • datax-core
    • datax-transformer
    • plugin-rdbms-util

    datax编译过程中会发现有些引用在maven中央仓库和阿里镜像中都没有,回头上传一份儿过来。

  3. 编译插件
    根据实际需求,编译数据读取和写入需要的各种reader和writer。如,需要从mysql库中读取数据,写入hive,则分别编译mysqlreader和hdfswriter。
    编译插件必须使用命令mvn -U clean package assembly:assembly -Dmaven.test.skip=true,编译成功后,到target文件夹找到类似datax/plugin/reader/mysqlreader的目录,里面有编译好的jar包、引用库、插件描述文件和job模板示例文件,如:

    • lib/
    • mysqlreader-0.0.1-SNAPSHOT.jar
    • plugin.json
    • plugin_job_template.json
  4. 在本地磁盘新建datax_home文件夹,作为程序运行的home文件夹。将datax工程目录下的core/src/main/conf文件夹复制到datax_home文件夹下。

  5. datax_home下建立plugin/readerplugin/writer文件夹,将先前编译成功的reader和writer插件分别放置于此目录。在这里插入图片描述

datax job config

在执行datax数据传输任务前,需要完成任务配置。这部分内容网上有很多教程和示例,此处不赘述,只贴一个简单的demo。

{
	"job": {
		"settting": {
			"speed": {
				"channel": 3,
				"byte": null
			},
			"errorLimit": null
		},
		"content": [{
			"reader": {
				"name": "postgresqlreader",
				"parameter": {
					"username": "数据库用户名",
					"password": "数据库密码",
					"where": "sql的where子句过滤条件",
					"column": ["id", "name", "describe", "data_source_id", "read_sql"],
					"splitPk": null,
					"connection": [{
						"table": ["要读取的表名"],
						"jdbcUrl": ["数据库连接串"],
						"querySql": null
					}]
				}
			},
			"writer": {
				"name": "hdfswriter",
				"parameter": {
					"defaultFS": "写入hdfs的namenode地址",
					"fileType": "hdfswriter仅支持TEXT和ORC",
					"path": "/hdfs/t_user/",
					"fileName": "t_user.TEXT",
					"column": [{
						"name": "id",
						"type": "int"
					}, {
						"name": "name",
						"type": "string"
					}, {
						"name": "age",
						"type": "int"
					}, {
						"name": "sex",
						"type": "string"
					}, {
						"name": "province",
						"type": "string"
					}],
					"writeMode": "append",
					"fieldDelimiter": ",",
					"compress": null
				}
			}
		}]
	}
}

Springboot工程

pom.xml

需要配置以下引用

	<dependency>
		<groupId>com.alibaba.datax</groupId>
	    <artifactId>datax-common</artifactId>
		<version>0.0.1-SNAPSHOT</version>
	</dependency>
	<dependency>
	    <groupId>com.alibaba.datax</groupId>
	    <artifactId>datax-core</artifactId>
	    <version>0.0.1-SNAPSHOT</version>
	</dependency>
	<dependency>
	    <groupId>com.alibaba.datax</groupId>
	    <artifactId>datax-transformer</artifactId>
	    <version>0.0.1-SNAPSHOT</version>
	</dependency>
	<dependency>
	    <groupId>com.alibaba.datax</groupId>
	    <artifactId>plugin-rdbms-util</artifactId>
	    <version>0.0.1-SNAPSHOT</version>
	</dependency>
	<dependency>
	    <groupId>com.fasterxml.jackson.core</groupId>
	    <artifactId>jackson-annotations</artifactId>
	    <version>2.10.5</version>
	</dependency>

主运行程序

public void start(String jsonPath){
		System.setProperty("datax.home", getHomePath());
        String[] datxArgs = {"-job", jsonPath,
                "-mode", "standalone",
                "-jobid", "-1"};
        try {
            Engine.entry(datxArgs);
        } catch (Throwable var6) {
            log.error("\n\n经DataX智能分析,该任务最可能的错误原因是:\n" + ExceptionTracker.trace(var6));
        }
}

代码讲解:

  1. jsonPath参数传入的是job的json配置文件路径;
  2. System.setProperty()方法向系统传入datax.home变量,其值是预先定义的datax_home文件夹的地址。

遇到的个掰倒霉问题

  • java.lang.IllegalAccessError: class org.apache.hadoop.hdfs.web.HftpFileSystem cannot access its superinterface org.apache.hadoop.hdfs.web.TokenAspect$TokenManagementDelegator
    出现该异常的原因是作者工程的其他模块中引用了hadoop-hdfs-2.7.1.jar,出现了jar包引用冲突。解决方法是删除hdfswriter/hadoop-hdfs-*.jar

这篇文章是datax集成过程中遇到的各种问题解决后的小记,后续还有很多问题需要记录。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
对于Spring Boot集成DataX,你可以按照以下步骤进行操作: 1. 首先,在你的Spring Boot项目中添加DataX的依赖。在pom.xml文件中添加以下内容: ```xml <dependency> <groupId>com.alibaba</groupId> <artifactId>datax</artifactId> <version>1.0.0</version> </dependency> ``` 2. 创建一个DataX的任务配置文件,例如job.json。在该配置文件中定义数据源、目标源、数据转换等信息。你可以参考DataX的官方文档来编写配置文件。 3. 在你的Spring Boot项目中创建一个任务执行的类,例如DataXJobExecutor。在该类中使用DataX提供的API来执行任务。 ```java import com.alibaba.datax.core.Engine; import com.alibaba.datax.core.util.ConfigParser; import com.alibaba.datax.core.util.ExceptionTracker; import com.alibaba.datax.core.util.FrameworkErrorCode; import com.alibaba.datax.core.util.container.CoreConstant; public class DataXJobExecutor { public void execute(String jobPath) { try { String[] args = { "-job", jobPath }; Engine.entry(args); } catch (Throwable e) { if (ExceptionTracker.isJobException(e)) { System.err.println(FrameworkErrorCode.RUNTIME_ERROR.toErrorString()); ExceptionTracker.trace(e); System.err.println(FrameworkErrorCode.RUNTIME_ERROR.toDesc()); } System.exit(1); } } } ``` 4. 在你的Spring Boot项目中调用DataXJobExecutor类来执行任务。 ```java import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; @SpringBootApplication public class YourApplication { public static void main(String[] args) { SpringApplication.run(YourApplication.class, args); // 执行DataX任务 DataXJobExecutor executor = new DataXJobExecutor(); executor.execute("path/to/your/job.json"); } } ``` 这样,你就可以在Spring Boot项目中集成DataX并执行数据同步任务了。记得将上述代码中的"path/to/your/job.json"替换为你实际的任务配置文件路径。希望能对你有所帮助!如果你还有其他问题,请继续提问。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值