上一篇文章中是根据表输入->表输出 我们会发现 如果数据量多的话,速度慢到让人吐血的地步。
为了解决这种输出端数据同步瓶颈,在项目中使用了Hadoop File Output组件,流程如下:
一:连接Hadoop配置
点击kettle big data配置文件kettel\plugins\pentaho-big-data-plugin
修改active.hadoop.configuration值为cdh58(对应与下一步hadoop配置文件)
copy集群的配置文件到cdh58下,并覆盖
需要的文件:core-site.xml、hbase-site.xml、mapred-site.xml、yarn-site.xml
二:Hadoop File Output的使用
1.文件 -> 新建 - > 转换 ->主对象树 ->Hadoop clusters ->