pig
文章平均质量分 78
幸运小侯子
一天学一点啊.............
展开
-
pig基础实例运算
基础运算 加减乘除(+ 、-、*、/、bincond ) 查看一下简单的文本内容 grunt> cat A; 0,1,2 1,3,4 grunt> a = load 'A' usingPigStorage(',')as(c1:int,c2:double,c3:float); grunt> b = foreach a generate $0+$1 asc1_c2; grunt>dum原创 2013-09-26 20:16:47 · 2326 阅读 · 0 评论 -
pig 指定行分割符和列分隔符号
由于我们的hdfs上抽取的数据是存储行分隔符和列分割符不是用的\n和\t。所以就想能看看是否能指定行分隔符,查了半天没查到。。可能是查找能力有限,呵呵,后来下载下来pig-0.11.0的源码看了一下PigStorage的类,输入inputFormat类指定了就是PigTextInputFormat,这个类直接集成了org.apache.hadoop.mapreduce.lib.input.Text原创 2013-09-26 14:16:42 · 10614 阅读 · 0 评论 -
Pig 安装
Pig 的安装 1.下载文件 在官方上下载下来 http://pig.apache.org/releases.html#Download 我个人下载的 版本是pig-0.11.0.tar.gz 2.安装 上传到服务器指定位置 由于我个人是新创建了一个pig用户来创建的,所以上传到了 /home/pig/这个目录 (用户创建 useradd pig -g root) 接原创 2013-09-24 13:01:05 · 9887 阅读 · 0 评论 -
pig入门学习
个人目前理解pig是对mapreduce的一种封装扩展,使写mapreduce简单化,可维护性更高一点,可透明性更清晰一点,操作数据更简单一点吧。 Pig latin是pig的使用语言和工具吧,至于其他的一些功能比如能执行hadoop的命令就先不提了。 1. Pig中的模式 pig中模式就是说pig数据的数据格式是什么样的。 比如当执行 grunt> describe原创 2013-09-24 18:14:08 · 2769 阅读 · 1 评论 -
Pig 重写加载函数和存储函数UDF
pig自带的pigstorage不能指定行分隔符,所以自己重写了一个简单的UDF类,可以指定列和行的分隔符,之前研究过的简单的, http://blog.csdn.net/ruishenh/article/details/12048067 但是弊端大,所以这次重写一下。 操作步骤打好包上传到服务器, grunt> register /home/pig/pig-0.11.0/u原创 2013-09-30 13:29:20 · 11960 阅读 · 0 评论 -
pig关系操作符实例
cogroup 对两个对象模式,分别按指定的字段进行分组,然后按照指定的key列来分组 grunt> cat A; 0,1,2 1,3,4 grunt> cat B; 0,5,2 1,7,8 grunt> b = load 'B' usingPigStorage(',') as (c1:int,c2:int,c3:int); grunt> a = load 'A' using原创 2013-09-27 19:14:12 · 9763 阅读 · 0 评论