1. 由于是导入hdfs先,选出hadoop file output
2. 拖拽到右侧屏幕
3. 双击配置
(1) 关于hadoop配置
(2) 第一次新建的时候会让你选择你的hadoop版本
如果是cdh 安装 会有cdh50 之类的,选择你对应的版本,如果是ambari安装选择hdp对应版本,如果是apache原生,选择apache。
如果选择错误,修改kettle下 的文件
\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\plugin.properties
修改对应的即可。
(3)去集群上找到对应的core-site.xml,如果find 会有很多,注意其中内容。含有配置信息的,有集群hostname的一般就是。
然后将文件拷贝下来,托到上一步对应的kettle文件夹下替换原有文件。
然后重启kettle即可链接hdfs。
4. mysql连接就相对简单,将数据库连接驱动
放入kettle lib目录下
kettle\pdi-ce-8.2.0.0-342\data-integration\lib
- 鼠标中键点击mysql 拖到hdfs上
- run