Pentaho Work with Big Data(一)—— Kettle连接Hadoop集群

准备研究一下Pentaho的产品如何同Hadoop协同工作。从简单的开始,今天实验了一下Kettle连接Hadoop集群。

实验目的:
配置Kettle连接Hadoop集群的HDFS。

实验环境:
4台CentOS release 6.4虚拟机,IP地址为
192.168.56.101
192.168.56.102
192.168.56.103
192.168.56.104

192.168.56.101是Hadoop集群的主,运行NameNode进程。
192.168.56.102、192.168.56.103是Hadoop的从,运行DataNode进程。
192.168.56.104安装Pentaho的PDI,安装目录为/root/data-integration。

Hadoop版本:2.7.2
PDI版本:6.0

Hadoop集群的安装配置参考 http://blog.csdn.net/wzy0623/article/details/50681554

配置步骤:
1. 启动Hadoop的hdfs
在192.168.56.101上执行以下命令
start-dfs.sh

2. 拷贝Hadoop的配置文件到PDI的相应目录下
在192.168.56.101上执行以下命令
scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/
scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/

下面的配置均在192.168.56.104上执行
3. 在安装PDI的主机上建立访问Hadoop集群的用户
我的Hadoop集群的属主是grid,所以执行以下命令建立相同的用户
useradd -d /home/grid -m grid
usermod -G root grid

4. 修改PDI安装目录的属主为grid
mv /root/data-integration /home/grid/
chown -R grid:root /home/grid/data-integration

5. 编辑相关配置文件
cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54/
在config.properties文件中添加如下一行
authentication.superuser.provider=NO_AUTH
把hdfs-site.xml、core-site.xml文件中的主机名换成相应的IP 
修改后的config.properties、hdfs-site.xml、core-site.xml文件分别如图1、图2、图3所示。


图1


图2


图3


6. 在Kettle中选择一个支持的Shim
选择菜单“工具”->“Hadoop Distribution...”,在弹窗中选择Cloudera CDH 5.4,如图4所示。


图4


7. 重启Kettle

8. 新建一个转换,在“主对象树”中选择“Hadoop cluster”,点击右键选择“New Cluster”,填写相关信息,如图5所示


图5


9. 点击“测试”,结果如图6所示,连接HDFS成功


图6


参考:
http://help.pentaho.com/Documentation/6.0/0L0/040/025
http://help.pentaho.com/Documentation/6.0/0H0/070/030/010
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值