HIVE官方介绍了关于Transform的基础使用方法,但是对于关于存在集合的情况介绍并不清楚
1. 列的分隔符大家都知道是TAB,但如果列的类型是array<int>,array如何传递给transform呢?
array<int>输出给transform脚本的格式是这样: [1,null,2]
即前后被中括号括起来,逗号分隔,如果item为空则输出字符串null
2. 如果是array<string>呢?怎么区分字符串null与真正的空?
array<int>输出给transform脚本的格式是这样: [“hello”,“null“,null],字符串都被双引号引起来了,所以字符串null与真正的null可以正确区分。
3. map<int, string>是怎么输出呢?
map<int, string>输出给transform脚本的格式是这样: {33:"good",4:"bad"},被大括号括起来。
4. struct<a:int, b:string>是怎么输出呢?
struct<a:int, b:string>输出给transform脚本的格式是这样: {"a":null,"b":null}
其实总结起来就是一句,json格式,与select出来看见的一致。但是,问题来了,我们怎么输出一个array<int>,难道也是[1,null,2]这种格式吗,这是不行的,输出的时候,不能带中括号、大括号,而是用\002作为划分items的分隔符,\003作为划分key value的分隔符(HIVE内部其实还有\004-\008作为嵌套分隔符)
以上是在HIVE 1.2.1上测试结论。