Greenplum 周边工具解析 - Kettle

了解更多Greenplum技术干货,欢迎访问Greenplum中文社区网站

Greenplum 作为全球领先的开源大数据平台,被广泛应用于包括金融、保险、证券、通信、航空、物流、零售、媒体、政府、医疗、制造、能源等行业。而将多个源端数据抽取、转换并加载到 Greenplum 数据库可能是目前很多用户较为关心的场景。

在数据集成方面,除了自己写程序或脚本来实现特定的功能,有一款顺手的ETL工具能大大提升工作效率。目前市场上现存的ETL工具或有部分ETL的CDC工具五花八门,老牌产品有Informatica、Datastage、Kettle 等,新秀有 NiFi、HVR 等。从今天开始,陆续给大家分享一些ETL相关的内容,分享中有任何建议请留言沟通。

Kettle简介

话不多说,今天开始介绍的一系列文章都与 Kettle 相关,Kettle 这个ETL工具集,允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。它是一款开源的ETL工具,纯java编写,可以在 Windows、Linux、Unix(包括Mac)上运行,运行高效稳定,图形化界面使用方便,可以说是目前开源产品中用户体验最好的产品。但是在监控和集群运行方面仍然存在短板(后期在介绍NiFi的时候会体会更深)。

Kettle 起初由开发大神 MATT 开源,其目的就是统一多个数据源数据并输出,目前它被日立公司收购,目前官方名称为 Data Integration,已经发展到 Data Integration 9.x 版本。所以大家可能会在百度搜索时看到很多概念,请不要让这些噪音混淆了你的判断,你大爷仍然是你大爷,Kettle 仍然可以免费下载使用。

随着 Kettle 版本的更迭,所支持的产品也越来越多,几乎包含了目前我们所能遇到的绝大部分产品。当然功能越全,软件包就越大,我在这里采用的是 Kettle 7.0 版本,用的比较顺手而已(当然我自己认为 6.x\7.x 版本比较经典,国内好多厂商都是基于这两个版本的 Kettle 进行的国产化),大家日常可以自行选择版本。

Kettle安装

Kettle 安装简单,由于其基于 Java 开发,所以首先需要在对应的环境下安装 JDK,然后将下载的 Kettle 安装包解压缩,点击 Data Integration 文件夹下的 spoon.sh/bat 运行即可,这里最需要关注的是 Kettle 版本与 JDK 版本的对应关系。

Kettle下载地址

传送门 –> https://sourceforge.net/projects/pentaho/files/

参考资料

PDI 官方文档:https://help.pentaho.com/Documentation

常见问题解答

传送门 –> https://wiki.pentaho.com/display/EAI/Beginners+FAQ

与JDK对应关系

官方文档指出:Since Kettle version 5 you need Java 7 (aka 1.7), download this version from Oracle(http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html). When the right version is not found on the path (verify wit

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值