在pig中读取RCFILE文件

4 篇文章 0 订阅
3 篇文章 0 订阅

RCFILE是FACEBOOK公司使用的一种数据存储结构

通过把相同列的数据存放在一起从而得到一个很高的压缩比

RCFILE集成在HIVE中,在HIVE并没有提供PIG读取数据的结构

但是在PIG的第三方库中有人贡献了读取RCFILE的PIGLOAD接口HiveColumnarLoader

使用方法很简单:

/*先注册jar包,需要用到的有这样3个*/

register /tmp/pig/piggybank.jar
register /tmp/pig/hive-exec-0.8.1.jar
register /tmp/pig/hive-common-0.8.1.jar


rcfile_input = LOAD 'input_dir' USING org.apache.pig.piggybank.storage.HiveColumnarLoader('a string,b int');

注:实际使用中逗号后面不能有空格,否则会报类似下面的异常信息

java.lang.IllegalArgumentException: Error: type expected at the position 7 of but 'b' is found.

接口中提供的参数用于解析RCFILE的文件格式

类型并非是PIG的数据类型,而是HIVE中的类型描述,具体对应关系为:

Hive TypePig Type from DataType
stringCHARARRAY
intINTEGER
bigint or longLONG
floatfloat
doubleDOUBLE
booleanBOOLEAN
byteBYTE
arrayTUPLE
mapMAP

需要注意的是HiveColumnarLoader据说是从0.8后提供的,不过我在0.8上没有成功,解析数据时会报错

org.apache.hadoop.mapred.Child: Error running child : java.lang.NoSuchMethodError: org.apache.hadoop.hive.serde2.columnar.ColumnarStruct.getField(ILorg/apache/hadoop/io/Text;)Ljava/lang/Object
查了一下说是0.8有BUG在0.9.2上已FIX

使用0.9.2使用通过

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值