kettle 技术调研

  • 适用场景

       1.ETL(抽取,转换,加载)2.BI(商务智能)3.DW(数据仓库)

        

  • 基本理论,核心概念

       Etl三个最主要步骤:

          “抽取”:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。

             csv,table,json,xml

           “转换”:按照预先设计好的规则将抽取的数据进行转换,使本来异构的数据格式能统一起来。

              

           “装载”:将转换完的数据按计划增量或全部导入到数据仓库中

             增量,全量

       Kettle:

  1. spoon---任务和转换的设计工具(GUI),一般在编写和调试ETL时用到。
  2. Pan----转换执行器(命令行方式),一般在自动调度时借助此命令调用调试成功的转换
  3. Kitchen----任务执行器(命令行方式),一般在自动调度借助此命令调用调试成功的job

       Kettle优点:

        1、免费,kettle完全开源,可以根据需要调整代码增减功能。

2、稳定,目前我们公司每天运行的kettle JOB 超过500个,运行近两年没有出现过因为kettle引起BUG。

    Job任务调度,支持可配置 时间间隔  s,min  每天什么时候,每周几哪个时间,每个月多少号什么时候。

3、开发高效,开发效率比较高,拖一些控件就能完成开发。

Kettle缺点:

  1、新增功能不完善,bulk load数据无法查找出错明细

2、部分功能不全,目前基本满足ETL需求,但个别特殊功能不能满足需求,

   如下载ftp数据。

       

  • 安装使用

       下载地址:http://kettle.pentaho.com/

       1.安装jdk ( 建议安装jdk1.8)

       2.配置环境变量:

           变量名:pentaho_java_home

           变量值:jdk安装目录

3.kettle为绿色软件,下载解压到一个目录下。

 

双击spoon.bat即可使用

(kettle默认支持的oracle,要用mysql需要安装mysql驱动)

  • 业务使用
  1. ETL处理,异构数据库同步

      多个transform 组成一个job,job实现任务的调度。

     2.建立数据仓库,从多个数据库抽取数据,进行处理进入数据仓库

       

3.报表(为报表提供处理好的数据)

      

  • kettle入门案列:
  1. 设置变量

   

   2.常量计算

 

   3.卸数

 

  4.增量更新

 

 5.全量覆盖

 

 6.创建文件夹

 

 

 

  • 了解内容

     数据仓库(DW):为需要业务智能的企业,提供指导业务流程改进,监视时间,成本,质量以及控制。理念就是让数据说话。

     

  • Etl常用操作

   1.对空值的处理

 

2.选择修改,移除字段

 

3.字段拆分

      

  • 参考地址
  1. https://blog.csdn.net/zzq900503/article/details/78405958 数据仓库
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值