以下是在 kettle8.3
版本上进行测试的
在 kettle9.1
, kettle9.2
版本,均无法使用组件 ORC output
和 ORC intput
。
在 kettle9.1
, kettle9.2
版本,可以使用组件 Parquet output
和 Parquet intput
。
必要条件
Windows
本地得配置 Windows-Hadoop
的环境变量
一、组件 ORC output
配置字段
设置 ORC output
的压缩方式(压缩方式可以不设置),下面是设置的 snappy
进行测试
注意:有个bug是,orc无法设置字段的编码。如果有中文数据,则会显示乱码
二、组件 Parquet output
配置字段,可以设置字段的编码为 UTF8
设置 Parquet output
的压缩方式(压缩方式可以不设置),下面是设置的 snappy
进行测试
注意:在第一次运行的时候,会弹出选择 Hadoop
的版本类型。根据本地配置的 Hadoop
来选择
输出的文件路径必须是这种形式的
String cacheFile=“F:/test”
"file:///"+cacheFile
否则会报错
java.net.URISyntaxException: Illegal character in path at index