PDI(kettle)学习笔记
文章平均质量分 66
蛋肠不要葱
这个作者很懒,什么都没留下…
展开
-
PDI(kettle)使用Hadoop job executor将写好的MapReduce放至Hadoop集群上运行
准备好需要放上Hadoop执行的jar。创建作业如下图:编辑Hadoop job executor如下:Jar:在静态main方法里面包含Hadoop mapper和reducer job的Java JARDriver class:包含main方法的类Command line arguments:输入执行时所需参数,即main方法的args。注意:1.Output path 必须不存在2.Combiner class:组合器类一般不写,Pentaho默认的即可满足大部分需求,或者直接用r.原创 2022-02-16 15:23:49 · 1056 阅读 · 0 评论 -
PDI(kettle)兼容hadoop-连接CDH hadoop集群
1. 说明PDI可以与Hadoop协同工作。通过提交适当的参数,Kettle可以连接Hadoop的HDFS、MapReduce、Zookeeper、Oozie、Sqoop和Spark服务。在数据库连接类型中支持Hive、Impala和HbasePDI获取:https://sourceforge.net/projects/pentaho/files/Pentaho-9.2/client-tools/PDI server 获取:https://sour...原创 2022-02-16 10:33:34 · 2386 阅读 · 7 评论 -
PDI(kettle) Java代码组件应用案例
1 概述Java代码步骤,位于Kettle转换的核心对象/脚本类别中,属于典型的需要编程基础才能掌控的步骤类型。而Java代码步骤,适用于熟悉Java语言的开发人员,用好这个步骤,需要对类、接口、多线程等语言相关知识有所掌握,并且需要对Kettle的基础框架有所理解。2 主要方法说明2.1 初始化PDI转换在执行前,会有一个各步骤的初始化动作,为步骤执行前的准备工作创造机会。为提高初始化的性能,Kettle为每个步骤启用一个初始化线程,从而并行完成所有步骤的初始化。初始化的主要内容就是调用一次步骤原创 2021-12-07 17:02:47 · 3244 阅读 · 0 评论 -
PDI(kettle) JavaScript组件使用及错误处理
JavaScript组件简介**步骤名称:**指定画布上修改的 Java 脚本值步骤的唯一名称**Transform Scripts:**在此步骤中创建的脚本**Transform Constants:**预定义的静态常量,用于控制数据行发生的情况。您必须为 trans_Status 变量分配一个常量值。要使用这些常量,必须首先CONTINUE_TRANSFORMATION在脚本的开头设置 trans_Status 变量,以便将变量分配给正在处理的第一行。否则,将忽略对 trans_Status原创 2021-10-11 15:27:29 · 2335 阅读 · 1 评论 -
PDI 性能调优技巧
步 提示 描述 JS 关闭兼容模式 在大多数情况下,重写 JavaScript 以使用与以前版本不兼容的格式很容易,并且使脚本更易于使用和阅读。默认情况下,旧的 JavaScript 程序以兼容模式运行。这意味着该步骤将像在以前的版本中一样进行处理。由于与强制兼容性相关的过载,您可能会看到性能略有下降。如果要使用新架构,请禁用兼容模式并更改代码,如下所示: •intField.getInteger() > intField •numberField.g原创 2021-09-26 16:27:36 · 372 阅读 · 0 评论 -
PDI(kettle)作业和转换的基本概念和简单示例
一、转换和作业定义转换(Transformation) 和 作业(Job)是Spoon设计器的核心两个内容,这两块内容构建了整个Kettle工作流程的基础。转换(Transformation):主要是针对数据的各种处理(即数据量),一个转换里可以包 含多个步骤(Step)。作业(Job):作业是步骤流,一个作业里包括多个作业项(Job Entry),一个作业项代表了一项工作,而转换是一种作业项,即作业里面可以包括多个转换也可以包含多个作业。作业的每一个步骤,必须等到前面的步骤都跑完了,后面的步骤才原创 2021-08-19 15:17:39 · 1713 阅读 · 0 评论 -
PDI(kettle)打开作业、转换报错:Invalid byte 1/2 of 1/2-byte UTF-8 sequence
Invalid byte 1 of 1-byte UTF-8 sequence原因是使用了中文,需要修改Spoon.bat中JVM参数【-Dfile.encoding=UTF-8】,如下图所示:PS:"-Xms1024m" “-Xmx2048m” 这一坨为PDI运行的jvm参数,如果内存溢出了适当调大一点,一般为他们的倍数Invalid byte 2 of 2-byte UTF-8 sequence原因在于:C:\Users\Administrator.kettle\repositories.原创 2021-08-18 15:15:37 · 567 阅读 · 0 评论 -
指定JDK运行PDI(kettle)
指定JDK运行PDI(kettle)修改Spoon.bat,建议使用notepad、editplus之类的工具打开,因为会高亮显示变量之类的东西设置变量PENTAHO_JAVA_HOME值为JDK的路径:set PENTAHO_JAVA_HOME=E:\work\java\jdk1.8.64\jdk1.8.0_92原创 2021-08-18 15:02:22 · 505 阅读 · 0 评论 -
PDI9.1(kettle)创建资源库
PDI9.1(kettle)创建资源库1.点击connect2.点击Repository Manager3.点击Other Repository4.点击Database Repository-Get Started5.起个名字后点击Database Connection6.点击Create New Connection,配置数据库即可PS:配置完之后可以测试下是否能连上数据库,如果报错的话一般检查下是否有驱动。没有就把相关驱动放到PDI路径下的lib文件夹,重启PDI即可。7.成功原创 2021-08-18 14:47:54 · 807 阅读 · 2 评论