Kettle调用GPLoad 加载数据到GreenPlum(Windows)

1.最近在本机测试加载数据到GP数据库,直接用kettle表输入,加载速度实在太慢。用kettle自带的pg批量加载插件速度也还可以,能到一万+每秒,调用GPLoad加载数据能到两三万条数据每秒,到处百度发现都是比较老的资料,现装完了重新整理一下操作过程,末尾会附上所有安装包的网盘地址。

2.先交代下环境:Greenplum 版本:6.19.1(对应的PG内核版本:9.4.26),GP安装在Linux环境下,通过本地navicat 可以正常连上建表查询等操作。 kettle版本:9.2.0 ,装在自用的笔记本电脑上。 通过kettle调用GPload加载数据到Greenplum 数据仓库需要在本地安装的插件如下:

     

安装顺序:python/PyYAML/PyGreSQL.exe/PyGreSQL.msi /greenplum

说明:直接按顺序点击安装,有的会要选针对所有用户还是当前用户,选的是针对当前用户。安装python的时候要配置环境变量,安装成功后在cmd命令框输入python会出现版本信息,如下图:

      查看 PyYAML/PyGreSQL 是否安装成功,在python下引用不报错就是安装成功了:

GPLoad 在6.0 以后就没有单独的安装包了,直接用greenplum-db-clients-6.19.1 安装包(这个是跟服务器的系统和版本对应的),这个网站需要注册登录进去才能下载;VMware Tanzu Network (pivotal.io)

到这里就齐活了!

3.打开kttle 测试一下拉取数据;我是从 sqlserver 抽数到Greenplum ,这里我遇到一个坑点,数据库表字段中有描述字段,正式的业务系统用户写出来的描述五花八门,找了许久才发现是描述中的反斜杠 解码错误,用kettle自带的组件替换掉后执行成功了。

Greenplum中对应的表先建好,几个配置如下图:

本机的端口可以空着会自行分配,IP填自己电脑的IP,不能填127.0.0.1,不然服务器 ping不过来:

1)gpload 的安装路径

2)允许的错误数据,正式环境肯定是一条错误数据也不能出现的

3)分隔符,必须要是转换数据里不能出现的符号或者字母

4)编码一般就选 UTF8

4.开启gpfdist 服务开始执行我们的转换:

5:上面安装包的网盘地址:链接:https://pan.baidu.com/s/13anYynpvNnlN6_zs_-IavA 
提取码:2p2o

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值