pig
文章平均质量分 72
superye1983
这个作者很懒,什么都没留下…
展开
-
Apache Pig的一些基础概念及用法总结
深入浅出,转一个转载必须注明出处:http://www.codelast.com/转载地址本文可以让刚接触pig的人对一些基础概念有个初步的了解。本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解转载 2012-08-17 16:47:52 · 8721 阅读 · 0 评论 -
Pig Distinct by fields
PIG自带的distinct只支持整条记录相同的过滤,并不支持对某些字段的distinctPIG的说明如下You cannot use DISTINCT on a subset of fields. To do this, use FOREACH…GENERATE to select the fields, and then use DISTINCT (seeExample: Nested原创 2012-10-10 14:01:24 · 2363 阅读 · 0 评论 -
Hadoop Archive小记
Hadoop中所有文件的信息都记录在Namenode的内存中因为Hadoop的设计是处理大数据,理想的数据文件应该是BLOCKSIZE的倍数为了避免小文件占用过多的系统内容,Hadoop提供了Archive来管理小文件不过har有可能使用的不是很多,在hive,pig,甚至hadoop中都有一些BUG,很多应用都有问题在这里做个记录1.文件夹模糊匹配 在使用hadoop原创 2012-12-03 16:21:33 · 1865 阅读 · 0 评论 -
在pig中读取RCFILE文件
RCFILE是FACEBOOK公司使用的一种数据存储结构通过把相同列的数据存放在一起从而得到一个很高的压缩比RCFILE集成在HIVE中,在HIVE并没有提供PIG读取数据的结构但是在PIG的第三方库中有人贡献了读取RCFILE的PIGLOAD接口HiveColumnarLoader使用方法很简单:/*先注册jar包,需要用到的有这样3个*/register /tmp/pi原创 2012-12-10 14:34:15 · 1661 阅读 · 0 评论