kettle在Linux上的安装、案例，调优

置顶 AllenGd

已于 2023-04-11 17:17:25 修改

阅读量3.2k

点赞数 2

分类专栏： kettle 文章标签： etl

于 2020-05-24 14:56:12 首次发布

本文链接：https://blog.csdn.net/allenzyg/article/details/106308874

版权

kettle 专栏收录该内容

5 篇文章 2 订阅

订阅专栏

接上篇文章《kettle在windows上安装与实践案例》kettle在windows上安装与实践案例_AllenGd的博客-CSDN博客_windows安装kettle

2.4 Linux下安装使用

2.4.1 单机

1)jdk安装

2)安装包上传到服务器，解压

注意：1. 把mysql驱动拷贝到lib目录下

2. 将本地用户家目录下的隐藏目录C:\Users\自己用户名\.kettle，整个上传到linux的家目录/home/allen/下

3)运行数据库资源库中的转换：

[root@node4 data-integration]#./pan.sh -rep=my_repo -user=admin -pass=admin -trans=stu1tostu2 -dir=/

参数说明：

-rep         资源库名称
-user        资源库用户名
-pass        资源库密码
-trans       要启动的转换名称
-dir         目录(不要忘了前缀 /)

4)运行资源库里的作业：

记得把作业里的转换变成资源库中的资源

[root@node4 data-integration]#./kitchen.sh -rep=repo1 -user=admin -pass=admin -job=jobDemo1 -logfile=./logs/log.txt -dir=/

参数说明：

-rep - 资源库名
-user - 资源库用户名
-pass – 资源库密码
-job – job名
-dir – job路径
-logfile – 日志目录

2.4.2 集群模式(了解)

1) 准备三台服务器，hadoop102作为Kettle主服务器，服务器端口号为8080，hadoop103和hadoop104作为两个子服务器，端口号分别为8081和8082。

2) 安装部署jdk

3) hadoop完全分布式环境搭建，并启动进程(因为要使用hdfs)

4) 上传解压kettle的安装包

5) 进到/opt/module/data-integration/pwd目录，修改配置文件

修改主服务器配置文件carte-config-master-8080.xml

<slaveserver>
    <name>master</name>
    <hostname>hadoop102</hostname>
    <port>8080</port>
    <master>Y</master>
    <username>cluster</username>
    <password>cluster</password>
</slaveserver>

修改从服务器配置文件carte-config-8081.xml

<masters>
    <slaveserver>
      <name>master</name>
      <hostname>hadoop102</hostname>
      <port>8080</port>
      <username>cluster</username>
      <password>cluster</password>
      <master>Y</master>
    </slaveserver>
</masters>
  <report_to_masters>Y</report_to_masters>
  <slaveserver>
    <name>slave1</name>
    <hostname>hadoop103</hostname>
    <port>8081</port>
    <username>cluster</username>
    <password>cluster</password>
    <master>N</master>
  </slaveserver>

修改从配置文件carte-config-8082.xml

<masters>
    <slaveserver>
      <name>master</name>
      <hostname>hadoop102</hostname>
      <port>8080</port>
      <username>cluster</username>
      <password>cluster</password>
      <master>Y</master>
    </slaveserver>
</masters>
  <report_to_masters>Y</report_to_masters>
  <slaveserver>
    <name>slave2</name>
    <hostname>hadoop104</hostname>
    <port>8082</port>
    <username>cluster</username>
    <password>cluster</password>
    <master>N</master>
  </slaveserver>

6) 分发整个kettle的安装目录，xsync data-integration

7) 启动相关进程，在hadoop102,hadoop103,hadoop104上执行

[atguigu@hadoop102 data-integration]$./carte.sh hadoop102 8080
[atguigu@hadoop103 data-integration]$./carte.sh hadoop103 8081
[atguigu@hadoop104 data-integration]$./carte.sh hadoop104 8082

8) 访问web页面

http://hadoop102:8080

9) 案例：读取hive中的emp表，根据id进行排序，并将结果输出到hdfs上

注意：因为涉及到hive和hbase的读写，需要修改相关配置文件。

修改解压目录下的data-integration\plugins\pentaho-big-data-plugin下的plugin.properties，设置active.hadoop.configuration=hdp26，并将如下配置文件拷贝到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26下