本文主要来源于google资料的自我总结,对常用的pig语法即“算法”进行了总结
原文“http://www.klshu.com/656.html”
基础概念:
relation bag tuple field data
关系(relation) = 包(bag)
一个包是一个元组(tuple)的集合,在pig中用{}扩起来表示一个包
一个元组(tuple)是若干个字段的有序集合(order set),在pig的数据结构中,用()扩起来标识一个元组
一个字段(field)是列数据(data)的标识;
和数据库的对应关系:
pig database
relation/bag table
tuple one record
field field(one volume)
但是pig中tuple的字段数是随意的,这点和数据库不同
运行模式以及注释:
1、 运行模式
a) 本地
i. pig –x local
b) 集群
i. pig –x mapreduce
ii. 或者pig
c) 批处理命令
i. 将命令批量写入xx.pig
ii. 用本地或者集群模式运行,如pig xx.pig
2、注释
a) 段落注释:/**/
b) 行注释: –
基本用法框架:
a) 输入
i. A = Load ‘输入路径’ USING PigStorage(“\t”) AS (name:chararray, age:int, gpa:float);
ii. 逻辑:用pig自带的PigStorage读入输入路径的数据,对每一行用”\t”分割,并用字符串类型的name、int类型的age、float类型的gpq作为每行数据的字段名
b) 中间处理
i. B = FOREACH A GENERATE name;
c) 输出
i. DUMP B; –输出到控制台
ii. 或者STORE B INTO ‘输出路径’ USING PigStorage();
基本语法实例:
1、计算多维度组合下的平均值 的实际例子
需求:求文件中第2、3、4组合的第4、5列的平均值
脚本解释:
A = Load ’1.txt’ USING PigStorage(‘ ‘) AS(col1:chararray, col2:int, col3:int, col4:int, col5:double, col6:double);
将1.txt中的每行数据用” “分割,然后安装(col1:chararray, col2:int, col3:int, col4:int, col5:double, col6:double)解析数据,并装载到每个bag/tuple/filed
col1是每列的别名,如果不指定,在后面可以用$0,$n来索引,但是可读性较差
A的结构是{col1:chararray, col2:int, col3:int, col4:int, col5:double, col6:double)}
B = GROUP A BY (col2, col3, col4);
对A用col2/col3/col4的组合进行分组,然后按组将每条tuple汇集成一个bag,
B的数据结构是B:{group:(col2,col3,col4),A:bag{:tuple,tuple}}
C = FOREACH B GENERATE group, AVG(col5), AVG(col6);
FOREACH是遍历每个组中汇集的tuple,并对其用组合函数处理字段
C的结构是C:{group:(col2,col3,col4),double,double}
DUMP C;//单机运行打印调试信息
STORE C INTO “output”;//存储结果
2、统计行数
A = LOAD ’1.txt’ USING PigStorage (‘ ‘) AS(col1:chararray, col2:int, col3:int, col4:int, col5:double, col6:double);
B = GROUP A all;
C = FOREACH B GENERATE COUNT(col2);
DUMP C;
注意:如果col2这一列有NULL,则这一行将不会被统计。
GROUP A all;没有by关键字。
If you want to include NULL values in the count computation, use COUNT_STAR.
3、FLATTEN
同1中的例子,但是C不同
C = FOREACH B GENERATE FLATTEN(group), AVG(col5), AVG(col6);
1中的例子得到的结果结构是(col2, col3, col4),avg1,avg2
但是对group作用FLATTEN后结构变为col2,col3,col4,avg1,avg2;可以看出FLATTEN的作用是解嵌套(un-nest)包或者元组tuple,
4、GROUP的两点说明:
a)用于GROUP的key如果多于一个字段(正如本文前面的例子),则GROUP之后的数据的key是一个元组(tuple),否则它就是与用于GROUP的key相同类型的东西
b)GROUP后得到的结果是一个包或者是relation,其包含的每一个tuple中包含两个字段,第一个字段被命名为’group’,第二个字段是一个包,是含有group对应值的所有tuple的set
5、把数据作为tuple来加载
语法:A = LOAD ’1.txt’ AS (T: tuple(col1:chararray, col2:int, col3:int,col4:int, col5:double, col6:double);
用describe A;可以查看A的结构。
注意:输入的数据必须是(xx,xx,xx…xx)的结构才能以元组的形式被加载,适用于中间结果的进一步处理
6、计算多维组合中不重复记录的条数
C = FOREACH B GENERATE (D = DISTINCT col5; group, COUNT(D));
说明:distinct后跟一个字段即可,如果这个字段不同,则肯定不重复,而如果重复,此字段肯定相同,而且重命名D要用等号,后面跟;
7、将relation转为表量scalar
8、在pig中使用shell脚本进行辅助处理
A = LOAD ‘2.txt’ AS (col1:int, col2:int, col3:int, col4:chararray, col5:int);
B = STREAM A THROUGH `awk ‘{if($4 == “=”) print $1″\t”$2″\t”$3″\t”999″\t”$5; else print $0}’`;
DUMP B;
作用:将第4列中的”=”换成999
9、向pig脚本传参:
语法:pig -param output_dir=”/xxx” xxx.pig;
而在xxx.pig中STORE D INTO ‘$output_dir’;
10、COGROUP的作用:
对两个关系中的包,分别按制定的字段进行分组
A = LOAD ’3.txt’ AS (acol1:chararray, acol2:int, acol3:int);
B = LOAD ’4.txt’ AS (bcol1:int, bcol2:chararray, bcol3:int);
C = COGROUP A BY A.acol1, B BY B.bcol2;
DUMP C;
结果的结构{key,{A’s one tuple or null},{B’s ont tuple or null}};
按A的第一行和B的第二行的值,分别对A、B进行分组组合,如果A中的tuple含有此key则显示在结果中,如果没有则为{},B也一样
11、piggybank
自定义函数的名称为piggybank
12、UDF的构造函数会被调用多次,所以在其中做一次工作时要特别小心
13、LOAD多个目录下的数据
LOAD ‘/data/201{1,2}’
load/data/2011 /data/2012两个目录下的数据
14、GROUP 函数不会忽略NULL值,而COUNT会
15、统计某些字段组合的种数:
A = LOAD ’15.txt’ AS (col1:int, col2:int);
B = GROUP A BY (col1, col2);
C = GROUP B ALL;
D = FOREACH C GENERATE COUNT(B);
DUMP D;
思路:先根据需求对数据进行分组,然后对分组COUNT;
注意:
a)D中COUNT的是B,因为通过C将所有的数据组为一个新的关系,只包含一个tuple,第一个字段为ALL,第二个字段是B的所有tuple组成的一个bag。
b)COUNT作用的对象必须是一个bag,所以在统计字段前,要用GROUP X ALL,将X中所有的tuple组成一个bag
16、两个整数相除,如何得到一个float
A = LOAD ’16.txt’ AS (col1:int, col2:int);
B = FOREACH A GENERATE (float)col1/col2;
DUMP B;
注意先转型在计算,而不是(float)(col1/col2);
17、UNION两个数据进行统计
A = LOAD ’1.txt’ AS (col1:int, col2:int);
B = LOAD ’2.txt’ AS (col3:int, col4:int);
C = UNION A, B;
D = GROUP C BY $0;
E = FOREACH D GENERATE group, SUM(C.$1);
#E = FOREACH D GENERATE FLATTEN(group), SUM(C.$1);
DUMP E;
注意:
UNION操作是给关系添加新的tuple,而且UNION后注意观测filed的引用方法,见结构篇
多个关系时,对列的操作要指定关系名
18、正则表达式过滤
过滤出符合*//*.qq.com/*的url
A = LOAD ’18.txt’ AS (col1:int, col2:chararray);
B = FILTER A BY col2 matches ‘.*//.*\\.qq\\.com/.*’;
说明:.*标识至少一个字符
而匹配.字符要进行转义\.,而在”内转义要用两个\\. ;
19、截取字符串:
SUBSTRING(col1, 0, 4):0为startIndex,4为stopIndex,不包含stopIndex;
A = LOAD ’19.txt’ AS (dataStr:chararray, col2:chararray);
B = FOREACH A GENERATE SUBSTRING(dataStr,0,4);
C = DISTINCT B;
DUMP C;
20、连接字符串:
A = LOAD ‘20.txt’ AS (col1:chararray, col2:int);
B = FOEACH A GENERATE CONCAT(col1, (chararray)col2);
DUMP B;
注意:连接的字段类型必须是chararray,如果不是要转型
嵌套使用:CONCAT(A,CONCAT(B,C);
21、用JOIN求两个数据集的交集&不同数据类型交集会失败
A = LOAD ’211.txt’ AS (a:int);
B = LOAD ’212.txt’ AS (b:int);
C = JOIN A BY a, B BY b;
D = GROUP C ALL;
E = FOREACH D GENERATE COUNT(C);
DUMP E;
JOIN后C的结构为:C:{A::a:int, B::b:int}
去重:
A = LOAD ’211.txt’ AS (a:int);
B = LOAD ’212.txt’ AS (b:int);
C = JOIN A BY a, B BY b;
uniq_C = DISTINCT(C);
D = GROUP uniq_C ALL;
E = FOREACH D GENERATE COUNT(C);
DUMP E;
22、三目运算符使用必须使用():用来替换空值
B = FOREACH A GENERATE ((col1 is null) ? -1 : col1)
23、如何在得到计算结果后,补齐空白
A = LOAD ‘23.txt’ AS (col1:int, b:tuple(col2:int, col3:int);
B = FOREACH A GENERATE col1, FLATTEN(b);
C = GROUP B BY B.col1;
D = FOREACH C GENERATE group, SUM(B.col1) AS sum;
E = FOREACH D GENERATE group, ((sum is null) ? 0 : sum);
DUMP E;
24、DISTINCT操作用于去重,正因为它要把数据集合到一起,才知道哪些数据是重复的,因此,它会产生reduce过程。同时,在map阶段,它也会利用combiner来先去除一部分重复数据以加快处理速度。
25、提高Pig job的优先级:set job.priority HIGH;提高Pig job的运行速度
26、“Scalars can be only used with projections”错误和嵌套/inner FOREACH
在第一列的每种组合中,第二列为3/6的数据分别有多少条
A = LOAD ’26.txt’ AS (col1:chararray, col2:int);
B = GROUP A BY col1;
C = FOREACH B {
D = FILTER A BY col2 == 3;
E = FILTER A BY col2 == 6;
GENERATE group, COUNT(D), COUNT(E);};
DUMP C;
27、在grunt模式下按Ctrl+A 和 Ctrl+E 代替 HOME 和 END,就可以跳到行首和行末了
28、同一个关系进行JOIN连接必须导入两次,做连接,否则出错
29、外链接JOIN
LEFT:左边的数据全量显示
A = LOAD ’291.txt’ AS (col1:int, col2:chararray);
B = LOAD ’292.txt’ AS (col1:int, col2:chararray);
C = JOIN A BY col1 LEFT, B BY col1;
DESCRIBE C;
DUMP C;
这个和数据库的左右连接和内链接一致
30、pig中支持过滤中文,但是在交互模式下不行
31、统计 tuple 中的 field 数,bag 中的 tuple 数,map 中的 key/value 组数用SIZE函数
32、字符此为null 用col is null来判断,但是不能过滤” “,” ” 过滤要用SIZE(xx)>0
FILTER A BY (col1 is not null AND (SIZE(col2) > 0));
33、Pig中的各operator(操作符),哪些会触发reduce过程
GROUP:由于GROUP操作会将所有具有相同key的记录收集到一起,所以数据如果正在map中处理的话,就会触发shuffle→reduce的过程。
ORDER:由于需要将所有相等的记录收集到一起(才能排序),所以ORDER会触发reduce过程。同时,除了你写的那个Pig job之外,Pig还会添加一个额外的M-R job到你的数据流程中,因为Pig需要对你的数据集做采样,以确定数据的分布情况,从而解决数据分布严重不均的情况下job效率过于低下的问题。
DISTINCT:由于需要将记录收集到一起,才能确定它们是不是重复的,因此DISTINCT会触发reduce过程。当然,DISTINCT也会利用combiner在map阶段就把重复的记录移除。
JOIN:JOIN用于求重合,由于求重合的时候,需要将具有相同key的记录收集到一起,因此,JOIN会触发reduce过程。
LIMIT:由于需要将记录收集到一起,才能统计出它返回的条数,因此,LIMIT会触发reduce过程。
COGROUP:与GROUP类似(参看本文前面的部分),因此它会触发reduce过程。
CROSS:计算两个或多个关系的叉积。