ETL 部署和简单的例子
1. ETL 部署
先安装 Java 环境.
开源的 ETL 工具: Kettle, kettle 是用 Java 编写的.
官方文档: https://help.pentaho.com/Documentation/8.2
下载路径: https://sourceforge.net/projects/pentaho/files/Pentaho%208.1/client-tools/
下载 pdi-ce-8.1.0.0-365.zip 这个压缩包, 下载过程很慢.
百度网盘下载:
链接:https://pan.baidu.com/s/1wkr__IFTtX1s23qw_8Bzlw
提取码:ns39
下载完后直接解压便可使用.
几个子程序的功能和启动方式:
- Spoon.bat: 图形界面方式启动作业和转化设计器
- Pan.bat: 命令行方式执行转换
- Kitchen.bat: 命令行方式执行作业
- Cart.bat: 启动 web 服务, 用于 Kettle 的远程运行或集群运行
- Encr.bat: 密码加密
2. ETL 简单例子
Kettle 的 Spoon 设计器用来设计转换 (Transformation) 和作业 (Job)
- 转换: 主要是针对数据的各种处理, 一个转换里可以包括多个步骤 (Step)
- 作业: 比转换更高一级的处理流程, 一个作业里包括多个作业项 (Job Entry), 一个作业项代表一项工作, 转换也是一个作业项
双击 Spoon.bat 文件.
新建立一个转换后, 建立一个随机数.
生成文件有两个:
删除文件.
预览操作.
字段选择
增加常量
复制数量
计算器
过滤操作.
链接操作的使用