pentaho DI--- Tutorial (spoon)

Pentaho Data Integration (PDI, also called Kettle),是pentaho的etl工具.虽然etl工具一般都用在数据仓库环境中,可是,PDI还是可以做以下事情:

1)在数据库或应用系统间迁移数据.

2)把数据导成为检系统

3)大数据的批量倒入数据库。

4)系统整合。

5)数据清洗。

PDI的使用非常简单,每一步基本上都可以听过图形化的工具来完成,而不需要写代码。从这个意义上说,PDI是面向元数据的。

PDI既可以作为一个单独工具使用,也可以作为pentaho的整个软件包的一部分使用。作为一个单独的工具,PDI支持各种数据源的输入和输出,包括:

文本文件;数据表;各种商业化的数据库引擎。PDI允许你对数据进行各种精细的控制。

现在,我们通过传统的“Hello world”的例子,来展示使用PDI是多么的简单。

1)下载PDI;

2)spoon的简介:

spoon是一个图形化的工具,用来设计和测试PDI要使用的过程等。设计测试完毕后,可以在终端窗口运行。

In Spoon, you build Jobs and Transformations. PDI offers two methods to save them:

  1. Database repository
  2. Files

3)例子

 a)源数据是一个csv文件,内容如下:

    last_name, name
Suarez,Maria
Guimaraes,Joao
Rush,Jennifer
Ortiz,Camila
Rodriguez,Carmen
da Silva,Zoe

b)经过转换后,变为xml文件,期望值如下:

- <Rows>
  - <row>
        <msg>Hello, Maria!</msg>
    </row>
  - <row>
        <msg>Hello, Joao!</msg>
    </row>
  - <row>
        <msg>Hello, Jennifer!</msg>
    </row>
  - <row>
        <msg>Hello, Camila!</msg>
    </row>
  - <row>
        <msg>Hello, Carmen!</msg>
    </row>
  - <row>
        <msg>Hello, Zoe!</msg>
    </row>
  </Rows>

下面是具体操作:

 第一步:菜单选择:文件--〉新建--〉转换

第二步:设置。对转换过程进行设置。如上图。

命名并保存。

使用 Steps and Hops构建转换的骨架。

  在转换里面:step是最小的单元步骤。step的种类非常繁多,基本上,可以归纳成几类,比如input和output,还有其他归类。每一个step都认为是

完成一个工作,比如恢复数据集合等。

而hop,是在两个step之间数据转换流动的图示。包含数据的起始和传递方向。

我们这次转换例子,包含三个步骤:

1)读取csv文件。

2)加入问候语句。

3)存成xml文件。

  • To the left of the workspace is the Steps Palette. Select the Input category.
  • Drag the CSV file onto the workspace on the right.
  • Select the Scripting category.
  • Drag the Modified JavaScript Value icon to the workspace.
  • Select the Output category.
  • Drag the XML Output icon to the workspace.

 

下面,选择第一个step,按住shift键,拖到第二个step上。

同样操作第二个到第三个。

现在,配置第一个step,双击它。可以看到:

这里还有2个步骤:get fields,和preview。

 

 

 

转载于:https://www.cnblogs.com/aomi/archive/2013/05/16/3082505.html

### 回答1: 根据提供的信息,这个问题似乎是和Pentaho中的插件存储库相关的访问问题。 "Pentaho" 是一种用于数据集成和业务智能(BI)的开源工具。而 "/@pentaho/di-plugin-repositories@8.3.0.0-371/index.h" 是指特定版本的一个插件存储库的索引文件。 如果出现 "spoon problem accessing /@pentaho/di-plugin-repositories@8.3.0.0-371/index.h" 的错误信息,可能是由于以下几个原因之一: 1. 插件存储库不可访问:这可能是由于网络连接问题或存储库服务器错误引起的。你可以尝试检查网络连接是否正常,或者联系Pentaho支持团队获取有关存储库服务器状态的更多信息。 2. 插件存储库路径错误:如果路径指定不正确,或者文件路径被更改或删除,就可能无法访问索引文件。你可以验证索引文件的路径是否正确,并确保文件存在。 3. 插件存储库版本不匹配:错误信息中提到了特定的插件存储库版本号(8.3.0.0-371),可能是由于Pentaho版本与该插件存储库版本不兼容导致的。你可以尝试与Pentaho版本对应的插件存储库版本,或者升级Pentaho到与该插件存储库版本兼容的版本。 综上所述,通过验证网络连接、检查存储库路径和确保兼容的Pentaho版本,你可以尝试解决这个问题。如果问题仍然存在,建议联系相关技术支持人员获取进一步的帮助。 ### 回答2: spoon问题访问 /@pentaho/di-plugin-repositories@8.3.0.0-371/index.h的原因可能有以下几种: 1. 网络问题:如果你的电脑无法访问这个地址,可能是因为网络连接出现了问题。你可以尝试重新连接到网络或者使用其他网络环境进行尝试。 2. 路径错误:可能是路径设置错误导致无法访问。你可以检查一下路径是否正确,并确认文件或文件夹是否存在。 3. 权限问题:有时候你可能没有访问该文件或文件夹的权限,导致无法访问。你可以尝试使用管理员权限或者联系系统管理员解决权限问题。 4. 插件版本不匹配:如果你的Spoon版本与这个插件版本不兼容,可能会引发访问问题。你可以尝试更新Spoon或找到与你当前版本兼容的插件。 如果以上解决方法都无法解决问题,建议你查看详细的错误信息或者寻求专业的技术支持来解决这个问题。希望能对你有所帮助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值