Kettle入门-简介、连接资源库

Kettle简介

ETL是数据从数据源经过EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)到到目标数据的整体过程,数仓建设过程中不可或缺的一部分,也是数据量增长的重要体现,随着技术的革新以及数据体量的不断增长ETL的局限性也逐渐体现出来,其中IBM公司提出了新的数据处理流程ELT,这个之后有时间可以分析一下。虽然ETL数据处理流程有一定的弊端,但是对于绝大部分大企业及中小企业来说,在新的数据处理流程没有出来之前ETL仍然是数据处理的绝佳途径。大公司凭借自身的实力搭建自己独有的ETL平台工具,对于中小企业来说开源的Kettle是绝佳的ETL工具。

Kettle又称PDI(Pentaho Data Integration),是一款较早的开源ETL工具,也是中小企业最为常用的ETL开发工具,以Java开发,支持跨平台运行,其特性包括:支持100%无编码、拖拽方式开发ETL数据管道;可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源;支持ETL数据管道加入机器学习算法。

Kettle特色功能:

1、无代码拖拽式构建数据管道:通过组件、连线、配置等方式实现数据管道的构建,完成数据的关联、过滤、计算、统计、挖掘、深度学习、格式转换、输出等操作;

2、多数据源对接:支持几乎所有的关系型数据库、大数据集(如HDFS、Hbase、MogoDB等分布式数据库)、部分文件格式、流数据等;

3、数据管道可视化:支持用户在数据管道任何一个步骤对当前数据进行查看,并可以在线以表格和图表(例如:柱状图、饼图等)的输出步骤的数据,支持不落地直接把任何一个步骤的数据以JDBC的方式提供给第三方应用访问;

4、模板化开发数据管道

5、深度支持大数据源

6、可视化计划任务:可以通过spoon客户端可视化配置任务计划

7、数据任务下压Spark集群

8、支持数据挖掘及深度学习

Kettle有三个主要组件:Spoon、Kitchen、Pan

         Spoon:是一个图形化的界面,可以让我们用图形化的方式开发转换和作业。Windows选择Spoon.bat;Linux选择Spoon.sh

         Kitchen:利用Kitchen可以使用命令行调用Job

         Pan:利用Pan可以用命令行的形式调用Trans

         Carte:Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server

我们最常用的就是Spoon这个图形化开发工具。

Spoon的安装分为安装包安装及解压包直接解压使用,安装前有需先检查是否安装最新的JDK1.8,如果没安装需安装JDK1.8,并配置相应的环境变量。具体的安装方法这里不在描述,想了解的话,后续在详细讲解。

Spoon主要分为两个部分:转发、作业

连接资源库

在实际的工作过程中不可能把自己配置的转换、作业保存在本地电脑进行执行,而kettle的远程资源库把我们的操作保存在协作平台。Kettle的资源库是根据文件夹的形式对转换及作业进行管理,几乎所有的企业都是把该部分数据保存在数据库,以账号密码的形式进行访问。

1、连接资源库

如果我们配置好环境变量,打开Spoon,点击客户端右上方的Connect,打开资源连接的Dialog,点击弹窗页面中的Other Repository

2、选择Database Repository

3、点击配置库连接,并点击Database Connection

4、完成后点击finish,完成数据库远程配置,点击Connect Now

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值