目录
2. 拷贝 Hadoop 的配置文件到 PDI 的相应目录下
3. 在安装 PDI 的主机上建立访问 Hadoop 集群的用户
准备研究一下 Pentaho 的产品如何同 Hadoop 协同工作。从简单的开始,今天实验了一下 Kettle 连接 Hadoop 集群。
实验目的
配置 Kettle 连接 Hadoop 集群的 HDFS。
实验环境
4 台 CentOS release 6.4 虚拟机,IP 地址为:
192.168.56.101
192.168.56.102
192.168.56.103
192.168.56.104
192.168.56.101 是 Hadoop 集群的主,运行 NameNode 进程。
192.168.56.102、192.168.56.103 是 Hadoop 的从,运行 DataNode 进程。
192.168.56.104 安装 Pentaho 的 PDI,安装目录为 /root/data-integration。
Hadoop 版本:2.7.2
PDI 版本:6.0
Hadoop集群的安装配置参考:Hadoop 集群安装配置实验
配置步骤
1. 启动 Hadoop 的 hdfs
在 192.168.56.101 上执行以下命令:
start-dfs.sh
2. 拷贝 Hadoop 的配置文件到 PDI 的相应目录下
在 192.168.56.101 上执行以下命令:
scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/
scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/
下面的配置均在 192.168.56.104 上执行。
3. 在安装 PDI 的主机上建立访问 Hadoop 集群的用户
我的 Hadoop 集群的属主是 grid,所以执行以下命令建立相同的用户:
useradd -d /home/grid -m grid
usermod -G root grid
4. 修改 PDI 安装目录的属主为 grid
mv /root/data-integration /home/grid/
chown -R grid:root /home/grid/data-integration
5. 编辑相关配置文件
cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/
在 config.properties 文件中添加如下一行:
authentication.superuser.provider=NO_AUTH
把 hdfs-site.xml、core-site.xml 文件中的主机名换成相应的 IP。修改后的 config.properties、hdfs-site.xml、core-site.xml 文件分别如图1、图2、图3 所示。
图1
图2
图3
6. 在 Kettle 中选择一个支持的 Shim
选择菜单“工具”->“Hadoop Distribution...”,在弹窗中选择 Cloudera CDH 5.4,如图4 所示。
图4
7. 重启 Kettle
8. 新建一个转换
在“主对象树”中选择“Hadoop cluster”,点击右键选择“New Cluster”,填写相关信息,如图5 所示。
图5
9. 点击“测试”,结果如图6 所示,连接 HDFS 成功
图6
参考:
Welcome to the Hitachi Vantara Documentation Portal
http://help.pentaho.com/Documentation/6.0/0H0/070/030/010