用阿里datax从达梦同步数据到MemFireDB时踩过的坑

最新推荐文章于 2024-08-15 22:00:35 发布

oscube

最新推荐文章于 2024-08-15 22:00:35 发布

阅读量2.7k

点赞数 1

文章标签： datax 达梦 memfiredb 数据仓库

本文链接：https://blog.csdn.net/oscube/article/details/118407931

版权

本文记录了在构建数据仓库时，使用DataX从达梦数据库同步数据到云数据库MemFireDB的过程。首先下载并检查DataX环境，然后发现DataX缺少针对特定数据库的插件，采用通用RDBMS方式解决。在同步过程中遇到驱动未注册、写入模式配置错误、通道设置不合法以及数据类型转换异常等问题，并逐一解决。最终成功完成数据同步。

摘要由CSDN通过智能技术生成

背景

在构建数据仓库时，部分业务系统使用达梦数据库存储原始数据，现在需要通过datax把数据同步到云数据库MemFireDb中进行分析。MemFireDB是一款NewSQL数据库系统的代表，具备高并发和弹性扩展的特点，用来作为数据仓库的存储系统。过程中遇到了不少问题，在此记录一下。

下载datax工具包

wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

下载后解压，进入bin目录

cd /opt/datax/bin

执行自检脚本，检查环境配置是否ok

python2.7 datax.py ../job/job.json

如果屏幕打印未有异常，则环境配置正常，否则检查运行环境是否满足下面要求

Linux
JDK(1.8以上，推荐1.8)
Python(推荐Python2.6.X)
Apache Maven 3.x (Compile DataX)

datax支持的数据源类型

来源： https://github.com/alibaba/DataX

类型	数据源	Reader(读)	Writer(写)	文档
RDBMS 关系型数据库	MySQL	√	√	读、写
	Oracle	√	√	读、写
	SQLServer	√	√	读、写
	PostgreSQL	√	√	读、写
	DRDS	√	√	读、写
	通用RDBMS(支持所有关系型数据库)	√	√	读、写
阿里云数仓数据存储	ODPS	√	√	读、写
	ADS		√	写
	OSS	√	√	读、写
	OCS	√	√	读、写
NoSQL数据存储	OTS	√	√	读、写
	Hbase0.94	√	√	读、写
	Hbase1.1	√	√	读、写
	Phoenix4.x	√	√	读、写
	Phoenix5.x	√	√	读、写
	MongoDB	√	√	读、写
	Hive	√	√	读、写
	Cassandra	√	√	读、写
无结构化数据存储	TxtFile	√	√	读、写
	FTP	√	√	读、写
	HDFS	√	√	读、写
	Elasticsearch		√	写
时间序列数据库	OpenTSDB	√		读
	TSDB	√	√	读、写

通过命令查看配置模板

通过上表可以看到，无论是达梦数据库，还是作为同步源的MemFireDB数据库都仅支持jdbc，在datax中没有单独的插件来支持同步过程，所以我们只能选择通用RDBMS的方式来进行同步，通过下面的命令查看配置模板

python2.7 datax.py --reader rdbmsreader --writer rdbmswriter

将命令行的输出内容保存到load.json文件中，并结合自己的环境调整参数。

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "rdbmsreader", 
                    "parameter": {
                        "column": [], 
                        "connection": [
                            {
                                "jdbcUrl": [], 
                                "table": []
                            }
                        ], 
                        "password": "", 
                        "username": "", 
                        "where": ""
                    }
                }, 
                "writer": {
                    "name": "rdbmswriter", 
                    "parameter": {
                        "column": [], 
                        "connection": [
                            {
                                "jdbcUrl": "", 
                                "table": []
                            }
                        ], 
                        "password": "", 
                        "preSql": [], 
                        "session": [], 
                        "username": "", 
                        "writeMode": ""
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}

参数的说明可以看
读：https://github.com/alibaba/DataX/blob/master/rdbmsreader/doc/rdbmsreader.md
写：https://github.com/alibaba/DataX/blob/master/rdbmswriter/doc/rdbmswriter.md

配置好load.json文件后，开始执行同步过程

python2.7 datax.py load.json_bak

下图是执行成功的截图

排错过程

No suitable driver found

同步的源的达梦数据库未在datax中注册，需要先注册插件，在文件“…/plugin/writer/rdbmswriter/plugin.json”的drivers数组中增加新的驱动类，同时需要将驱动的jar包复制到…/lib/目录中。注意这里和官方github的描述不一致，官方github描述的是要将jar包复制到“…/plugin/writer/rdbmswriter/libs/”中，如果是拷贝到这个目录中，仍然会有上述错误。通过查看datax.py文件，发现class_path设置的是…/lib目录，如下图