kettle
kettle部署分为kettle server部署和客户端的kettle client部署,二者安装包完全一致,除因为不同操作系统执行相对应的脚本文件外(Linux执行shell文件,windows执行bat文件),其它配置基本一致。
kettle版本:6.0,下载地址:http://sourceforge.net/projects/pentaho/files/Data%20Integration/6.0/
步骤:
- 安装JDK,kettle6.0必须依赖jdk1.7或以上,安装步骤见:系统架构-JDK安装
-
解压kettle安装包。
-
如果是linux系统请修改spoon.sh脚本。
如果是windows系统不需要修改直接运行spoon.bat文件即可。
- 安装MySQL,MySQL主要为kettle资源库配置。也可以使用其它关系型数据库代替。安装步骤见:系统架构-安装MySQL。
- 加入mysql驱动包。把mysql驱动包放入/data-integration/lib目录下。
-
配置资源库。
在菜单栏中选择工具->资源库->连接资源库。
选择添加资源库图表
选择创建资源库的类型,我们选择第一个基于数据库的资源库。
点击新建,并在连接类型中选择相对应的关系型数据库,填入对应的配置选项。
测试连接成功后,点击确认,并输入资源库的名称和描述,点击创建或更新。
点击创建会预生成预创建sql的脚本,编辑改sql脚本,修改:点击执行,资源库创建完成。在资源库登陆界面选择创建的资源库,输入用户名/密码(admin/admin)登陆即可。
-
配置kettle连接Hadoop集群。
选择hadoop集群对应的kettle版本,各版本对应信息请查看:http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version。kettle在5.4版本开始支持CDH5.3,我们使用最新的6.0版本。
编辑/data-integration/plugins/pentaho-big-data-plugin/plugin.properties文件。编辑/data-integration/plugins/pentaho-big-data-plugin/pentaho-big-data-plugin/hadoop-configurations/cdh54/yarn-site.xml、core-site.xml文件修改主机名,并加入当前使用集群配置。并在/data-integration/plugins/pentaho-big-data-plugin/pentaho-big-data-plugin/hadoop-configurations/cdh54/目录下加入Hbase-site.xml文件,配置完成后重启kettle配置生效。
-
解决kettle资源库保存中文乱码问题。
编辑kettle的启动脚本spoon.bat文件。在数据连接时,编辑选项在命名参数中加入characterEncoding=utf8参数。