（转）PIG 的几种 storage

最新推荐文章于 2020-12-20 09:20:45 发布

iteye_20817

最新推荐文章于 2020-12-20 09:20:45 发布

阅读量422

点赞数

分类专栏： hadoop 文章标签：大数据 php 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iteye_20817/article/details/82477413

版权

hadoop 专栏收录该内容

91 篇文章 0 订阅

订阅专栏

PIG 的几种 storage

PIG 现在除了默认的 PigStorage（对应使用制定分隔符分割的文本格式，默认为 tab）以外还提供了

BinStorage，默认情况下 map/reduce job 的存储方式，用户也可以使用（可以 load 也可以 store），builtin；
JsonLoader/JsonStorage，前者需要指定 schema，builtin
TextLoader 用来读入文本，每行一个 chararray，builtin
AvroStorage（org.apache.pig.piggybank.storage.avro ）用来读取和存储 avro 格式的文件，读取也需要 schema，或者指定或者有个 schema 文件
CVSLoader（org.apache.pig.piggybank.storage）用来载入 CVS 文件
DBStorage（org.apache.pig.piggybank.storage）用于写入 DB，需要指定数据库驱动和使用的 SQL 语句
HadoopJobHistoryLoader（同上）呃，这也行…
IndexedStorage（同上），支持 per-record seek 的存储
MultiStorage（同上），产生多个 output directory，根据用户指定的规则进行拆分
RegExLoader 与 MyRegExLoader（同上），根据 RE 对 log 进行分析
SequenceFileLoader（同上），用来读取 sequence file
XMLLoader（同上），用来 load XML 文件的内容，需要提供 schema。
HBaseStorage（org.apache.pig.backend.hadoop.hbase）用来从 HBase 里面读入和写入数据
HDataStorage（org.apache.pig.backend.hadoop.datastorage ）看不出来干啥的…
TableLoader/TableStorer（org.apache.hadoop.zebra.pig）用来处理 zebra 格式的数据，好像现在没啥人用了？

如果希望自己提供 storage 需要继承 LoadFunc/StoreFunc（其实都会构造 Reader/Writer 来完成实际的工作）和实现StoreFuncInterface。

转自：http://remonstrate.wordpress.com/2012/07/02/pig-%E7%9A%84%E5%87%A0%E7%A7%8D-storage/

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。