背景说明:
在数据量较小,且数据源和装载地都是关系型数据库时,使用Kettle作ETL较为简便。
因为调度系统产品由于服务器环境方面的因素,而没法部署,故使用Linux的crontab定时器来制做简易调度系统是一个比较简便的解决方案。
本文旨在记录Kettle的部署及配置文件配置注意事项和如何自制简易调度系统,以便处理相似问题时方案的复用。html
1、环境与工具
CentOS 6.7
JDK1.8/JDK1.7
pdi-ce-6.1.0.1-196.zip
2、Linux安装Kettle
2.1 安装JDK并配置环境变量
Kettle的运行须要jdk环境,因此须要先安装jdk。jdk的安装方法此处略去。数据库
2.2 建立kettle用户
# useradd -m kettle
2.3 上传Kettle安装包并解压
建立kettle部署目录vim
# mkdir /opt/kettle
将安装包pdi-ce-6.1.0.1-196.zip上传至/opt/kettle目录下,并解压:bash
# unzip /opt/kettle/pdi-ce-6.1.0.1-196.zip
2.4 更改属主属组和执行权限
# chown -R kettle:kettle /opt/kettle
# chmod 755 /opt/kettle/pdi-ce-6.1.0.1-196/data-integration/*.sh
2.5 测试
切换至kettle用户服务器
# su kettle
启动kettle的kitchen或pan工具
$ cd /