PDI（kettle）兼容hadoop-连接CDH hadoop集群

蛋肠不要葱

已于 2022-02-16 10:48:06 修改

阅读量2.4k

点赞数 1

分类专栏： PDI(kettle)学习笔记文章标签： hadoop big data etl

于 2022-02-16 10:33:34 首次发布

本文链接：https://blog.csdn.net/qq_37219543/article/details/122957903

版权

9 篇文章 2 订阅

订阅专栏

PDI可以与Hadoop协同工作。通过提交适当的参数，Kettle可以连接Hadoop的HDFS、MapReduce、Zookeeper、Oozie、Sqoop和Spark服务。在数据库连接类型中支持Hive、Impala和Hbase

PDI获取：https://sourceforge.net/projects/pentaho/files/Pentaho-9.2/client-tools/

PDI server 获取：https://sourceforge.net/projects/pentaho/files/Pentaho-9.2/server/

具体版本可以将URL截取到files里面找。

参考资料：https://help.hitachivantara.com/Documentation/Pentaho/9.2/Work_with_data/Connecting_to_a_Hadoop_cluster_with_the_PDI_client

驱动获取：https://sourceforge.net/projects/pentaho/files/Pentaho-9.2/server/

1. 打开Spoon，选择已有作业或转换，新建作业或转换也可以

2. 点击“主对象树”-->右键“Hadoop clusters” --> “Add driver”

3. “Browse”选择驱动，具体驱动详见“驱动获取”下载的，路径为：

../design-tools/data-integration/ADDITIONAL-FILES/drivers

我们用到的是CDH，所以选择安装：

pentaho-hadoop-shims-cdh61-kar-9.2.2021.05.00-290.kar

4. 单击“下一步”，没什么特殊情况基本都会成功。最后重启Spoon。

导入之前先获取Hadoop集群信息，打开CM，选择“hive”
点击“操作”--> “下载客户端配置”
得到里面的XX-site.xml文件，共5份
打开Spoon，选择已有作业或转换，新建作业或转换也可以
点击“主对象树”-->右键“Hadoop clusters” --> “Import cluster”，选择之前的XX-site.xml即可。这里需要注意的是：这几份文件里面存的都是Hadoop里面集群机器的内部名称，如果外部访问需要将内部的机器改为IP地址，或者在hosts那里编辑好对应的映射关系
单击“Next”完成PDI会测试相关连接并返回结果。正常配置没问题的话基本都会成功的。
不想导入也可以自己填写相关信息，如下图

关注

专栏目录