使用kettle批量加载数据到kadb

  • 测试环境
  1. 达梦数据库版本:DM Database Server 64 V8 03134284132-20240115-215128-20081(官网测试版)
  2. KADB版本:KADB V003R002C001B0181
  3. Kettle版本:pdi-ce-9.4.0.0-343(官网下载)
  4. Python版本:python-2.7.11.amd64.msi(官网下载)
  5. PyYAML版本:PyYAML-3.11.win32-py2.7 (https://pypi.org/project/PyYAML/ 下载)
  6. PyGreSQL版本:PyGreSQL-4.1.win32-py2.7(exe,msi), (http://pygresql.org/files/ 下载)
  7. Greenplum window客户端:greenplum-db-clients-6.1.0-x86_64 (pivotal官网下载)
  8. 达梦数据库jdbc驱动:DmJdbcDriver18.jar (官网下载)
  • 安装

按下面顺序安装软件:

  1. 数据库(dm、kadb)
  2. python-7.11.amd64.msi (注意安装时选择使用用户,要选this user only,否则安装PyGreSQL…exe将出现注册表中没有python)或者按照附录的内容,自行创建pythonregister信息)
  3. PyYAML-11.win32-py2.7
  4. PyGreSQL-1.win32-py2.7.msi
  5. PyGreSQL-4.1.win32-py2.7.exe
  6. greenplum-db-clients-1.0-x86_64
  • kettle作业配置

创建如下kettle数据加载作业

Test作业是表输入,配置信息

其中dm数据库连接使用:generic database类型

需要把dm数据库的jdbc驱动:DmJdbcDriver18.jar拷贝到kettle的lib目录下

字段选择组件,将dm数据库的大写转换为kadb的小写

Greenplum load是greenplum批量加载组件,完成使用gpload命令将数据并行加载任务

Kettle原生支持greenplum,数据库连接配置如下:

Local hostname标签页配置

Port不用设置,gpload自动生成。Hostname设置为运行kettle的windows机器地址,该机器必须和dm和kadb网络互通

GP configuration配置

其中:

Path to the gpload:为greenplum客户端安装目录中gpload.py文件的地址

Control file:为gpload生成的yaml文件保存位置,将默认的cfg扩展名修改为yaml

Log file:为gpload日志文件保存位置

Data file:为gpload加载的数据文件保存位置

Encoding:设置为UTF8即可

实际测试kadb单节点,单实例,加载3145728条记录,gpload用时:5.65秒

附录

安装PyYAML时提示:Python version 2.7 required,which was not found register解决方法

Window命令regedit打开注册表编辑器,加入以下键值路径:

计算机\HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\Python\PythonCore\2.7\InstallPath

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值