PDI(kettle)兼容hadoop-连接CDH hadoop集群

1. 说明

        PDI可以与Hadoop协同工作。通过提交适当的参数,Kettle可以连接Hadoop的HDFS、MapReduce、Zookeeper、Oozie、Sqoop和Spark服务。在数据库连接类型中支持Hive、Impala和Hbase

        PDI获取:https://sourceforge.net/projects/pentaho/files/Pentaho-9.2/client-tools/

        PDI server 获取:https://sourceforge.net/projects/pentaho/files/Pentaho-9.2/server/

具体版本可以将URL截取到files里面找。

2. 在Spoon中安装驱动

参考资料:https://help.hitachivantara.com/Documentation/Pentaho/9.2/Work_with_data/Connecting_to_a_Hadoop_cluster_with_the_PDI_client

驱动获取:https://sourceforge.net/projects/pentaho/files/Pentaho-9.2/server/

        1. 打开Spoon,选择已有作业或转换,新建作业或转换也可以

        2. 点击“主对象树”-->右键“Hadoop clusters” --> “Add driver”

        3. “Browse”选择驱动,具体驱动详见“驱动获取”下载的,路径为:

../design-tools/data-integration/ADDITIONAL-FILES/drivers

我们用到的是CDH,所以选择安装:

pentaho-hadoop-shims-cdh61-kar-9.2.2021.05.00-290.kar

        4. 单击“下一步”,没什么特殊情况基本都会成功。最后重启Spoon。

3. 导入hadoop集群信息

  1. 导入之前先获取Hadoop集群信息,打开CM,选择“hive”                                          
  2. 点击“操作”--> “下载客户端配置”                                                                                            
  3. 得到里面的XX-site.xml文件,共5份
  4. 打开Spoon,选择已有作业或转换,新建作业或转换也可以
  5. 点击“主对象树”-->右键“Hadoop clusters” --> “Import cluster”,选择之前的XX-site.xml即可。这里需要注意的是:这几份文件里面存的都是Hadoop里面集群机器的内部名称,如果外部访问需要将内部的机器改为IP地址,或者在hosts那里编辑好对应的映射关系
  6. 单击“Next”完成PDI会测试相关连接并返回结果。正常配置没问题的话基本都会成功的。
  7. 不想导入也可以自己填写相关信息,如下图                                               

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值