DataX使用入门

5 篇文章 0 订阅

DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。

一、datax需要python环境,需要先安装python
打开官网 https://www.python.org/downloads/windows/ 下载中心
在这里插入图片描述
此处下载2.6.5版本安装
安装完成后使用python -V查看是否已安装成功

在这里插入图片描述

二、下载datax
方法一、直接下载DataX工具包:DataX下载地址
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

$ cd  {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}

方法二、下载DataX源码,自己编译:DataX源码
https://github.com/alibaba/DataX

datax的目录结构
在这里插入图片描述
bin目录下是pytho脚本文件,主要用来执行job文件(默认需要依赖Python2的环境,也可以修改为Python3)

conf目录存放一些配置文件

job目录下存放了一个job测试文件(我们通过datax-web生成的临时job文件不会放在这里,而是在data-web里边自己配置存放目录)

lib是依赖的一些jar包

log目录存放job文件的执行日志

plugin目录存放的是对不同数据源读取(Reader)和写入(Writer)的插件支持

如果没有在plugin目录下发现自己需要的Reader或者Writer则需要自己手动安装(比如ES的Reader和Writer)。

使用Datax执行job文件

python datax.py job文件

txt文件传向mysql的Job文件模板如下(Mysql为例):

{
	"job": {
		"content": [{
			"reader": {
				"name": "txtfilereader",
				"parameter": {
					"column": [{
							"index": 0,
							"type": "long"
						},
						{
							"index": 1,
							"type": "string"
						},
						{
							"index": 2,
							"type": "string"
						},
						{
							"index": 3,
							"type": "string"
						},
						{
							"index": 4,
							"type": "string"
						},
						{
							"index": 5,
							"type": "string"
						},
						{
							"index": 6,
							"type": "string"
						},
						{
							"index": 7,
							"type": "string"
						},
						{
							"index": 8,
							"type": "string"
						},
						{
							"index": 9,
							"type": "date",
							"format": "yyyy-MM-dd HH:mm:ss"
						},
						{
							"index": 10,
							"type": "string"
						},
						{
							"index": 11,
							"type": "date",
							"format": "yyyy-MM-dd HH:mm:ss"
						},
						{
							"index": 12,
							"type": "long"
						}
					],
					"encoding": "UTF-8",
					"fieldDelimiter": ",",
					"path": [
						"C:/Users/jxk/Desktop/tst.txt"
					]
				}
			},
			"writer": {
				"name": "mysqlwriter",
				"parameter": {
					"column": [
						"id",
						"project_type",
						"attach_type",
						"attach_name",
						"attach_url",
						"attach_key",
						"attach_hash",
						"attach_size",
						"created_by",
						"created_date",
						"last_updated_by",
						"last_updated_date",
						"version"
					],
					"connection": [{
						"jdbcUrl": "jdbc:mysql://8.68.24.3:3306/testkettle?characterEncoding=utf-8&serverTimezone=Asia/Shanghai",
						"table": [
							"comm_attachment"
						]
					}],
					"password": "274100",
					"preSql": [
						"delete from comm_attachment"
					],
					"session": [

					],
					"username": "root",
					"writeMode": "insert"
				}
			}
		}],
		"setting": {
			"speed": {
				"channel": "5"
			}
		}
	}
}

C:/Users/jxk/Desktop/tst.txt文件内容如下

1,sunnyDay,image/png,ttt.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tst,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0
2,sunnyDay,image/png,ttb.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tsb,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0

数据库建库脚本如下

CREATE TABLE `comm_attachment` (
  `id` int NOT NULL AUTO_INCREMENT COMMENT '主键',
  `project_type` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '项目名-说明该附件是属于哪个项目的',
  `attach_type` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件类型',
  `attach_name` varchar(200) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件名',
  `attach_url` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件下载地址',
  `attach_key` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件key',
  `attach_hash` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件hash',
  `attach_size` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件大小',
  `created_by` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '创建人',
  `created_date` timestamp NULL DEFAULT NULL COMMENT '创建时间',
  `last_updated_by` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '最后修改人',
  `last_updated_date` timestamp NULL DEFAULT NULL COMMENT '最后修改时间',
  `version` int DEFAULT NULL COMMENT '乐观锁-版本号',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb3 COLLATE=utf8_unicode_ci COMMENT='附件表'

python执行语句
在这里插入图片描述

python datax.py C:\Users\jxk\Desktop\abc.json

执行结果:
在这里插入图片描述
在数据库查看数据:
在这里插入图片描述

语句执行过程中可能遇到的问题:
问题描述:在使用Datax插件将数据从hive导入mysql时,发现写入MySQL报错 :Could not retrieve transation read-only status server
匹配数据库和应用中数据库驱动版本(mysql驱动版本不一致) ----
-查看MySQL版本:

mysql> select version();
+------------+
| VERSION()  |
+------------+
| 8.0.16     |
+------------+

-查看Datax插件MySQL驱动版本:

/datax/plugin/writer/mysqlwriter/libs$ ls mysql-connector*
mysql-connector-java-5.1.34.jar

下载对应的MySQL驱动版本:https://static.runoob.com/download/mysql-connector-java-8.0.16.jar

Illegalunsupported escape sequence near index 3
注意json文件中的路径书写
正确解析:

C:/Users/jxk/Desktop/tst.txt

错误写法:

C:\\Users\\jxk\\Desktop\\tst.txt
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DataX使用方式包括以下几个步骤: 1. 下载和安装DataX 可以从DataX的官方GitHub仓库中下载最新版本的DataX,并按照官方文档进行安装。安装完成后,可以使用DataX的命令行工具进行数据交换任务的配置和执行。 2. 配置数据源和目标 DataX需要根据数据源和目标的不同配置不同的插件。可以在DataX的插件目录中找到对应的插件,并按照官方文档进行配置。例如,如果需要从MySQL数据库中读取数据并写入到Hive表中,可以使用MySQLReader和HiveWriter插件进行配置。 3. 编写数据交换任务的配置文件 可以使用DataX的配置文件格式,编写数据交换任务的配置文件。配置文件中需要指定数据源、目标、数据表、字段映射关系等信息。可以根据官方文档提供的示例进行配置。 4. 执行数据交换任务 可以使用DataX的命令行工具执行数据交换任务。执行命令的格式为: ``` python datax.py job/job.json ``` 其中,`job.json`为数据交换任务的配置文件。执行命令后,DataX会自动读取配置文件,并进行数据交换操作。可以使用DataX提供的日志和报告功能进行监控和报告。 总之,使用DataX进行数据交换需要进行插件配置、任务配置和命令行执行等操作。虽然有些繁琐,但是DataX提供了丰富的插件和扩展接口,可以满足不同的数据交换需求。同时,DataX还提供了完善的监控和报告功能,可以帮助用户及时发现和处理数据交换中的问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值