Pentaho Work with Big Data(一)—— Kettle 连接 Hadoop集群

目录

实验目的

实验环境

配置步骤

1. 启动 Hadoop 的 hdfs

2. 拷贝 Hadoop 的配置文件到 PDI 的相应目录下

3. 在安装 PDI 的主机上建立访问 Hadoop 集群的用户

4. 修改 PDI 安装目录的属主为 grid

5. 编辑相关配置文件

6. 在 Kettle 中选择一个支持的 Shim

7. 重启 Kettle

8. 新建一个转换

9. 点击“测试”,结果如图6 所示,连接 HDFS 成功

参考:


        准备研究一下 Pentaho 的产品如何同 Hadoop 协同工作。从简单的开始,今天实验了一下 Kettle 连接 Hadoop 集群。

实验目的

        配置 Kettle 连接 Hadoop 集群的 HDFS。

实验环境

        4 台 CentOS release 6.4 虚拟机,IP 地址为:
192.168.56.101
192.168.56.102
192.168.56.103
192.168.56.104

192.168.56.101 是 Hadoop 集群的主,运行 NameNode 进程。
192.168.56.102、192.168.56.103 是 Hadoop 的从,运行 DataNode 进程。
192.168.56.104 安装 Pentaho 的 PDI,安装目录为 /root/data-integration。

Hadoop 版本:2.7.2
PDI 版本:6.0

        Hadoop集群的安装配置参考:Hadoop 集群安装配置实验

配置步骤

1. 启动 Hadoop 的 hdfs

        在 192.168.56.101 上执行以下命令:

start-dfs.sh

2. 拷贝 Hadoop 的配置文件到 PDI 的相应目录下

        在 192.168.56.101 上执行以下命令:

scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/
scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/

        下面的配置均在 192.168.56.104 上执行。

3. 在安装 PDI 的主机上建立访问 Hadoop 集群的用户

        我的 Hadoop 集群的属主是 grid,所以执行以下命令建立相同的用户:

useradd -d /home/grid -m grid
usermod -G root grid

4. 修改 PDI 安装目录的属主为 grid

mv /root/data-integration /home/grid/
chown -R grid:root /home/grid/data-integration

5. 编辑相关配置文件

cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/

        在 config.properties 文件中添加如下一行:

authentication.superuser.provider=NO_AUTH

        把 hdfs-site.xml、core-site.xml 文件中的主机名换成相应的 IP。修改后的 config.properties、hdfs-site.xml、core-site.xml 文件分别如图1、图2、图3 所示。

图1

图2

图3

6. 在 Kettle 中选择一个支持的 Shim

        选择菜单“工具”->“Hadoop Distribution...”,在弹窗中选择 Cloudera CDH 5.4,如图4 所示。

图4

7. 重启 Kettle

8. 新建一个转换

        在“主对象树”中选择“Hadoop cluster”,点击右键选择“New Cluster”,填写相关信息,如图5 所示。

图5

9. 点击“测试”,结果如图6 所示,连接 HDFS 成功

图6

参考:


Welcome to the Hitachi Vantara Documentation Portal
http://help.pentaho.com/Documentation/6.0/0H0/070/030/010

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值