1.PIG主要数据处理语言,他的数据处理过要转化成MR来运行
2.PIG的数据处理语言是数据流方式的,
3.PIG基本数据类型是:int ,long, float , double , chararry(本人感觉他就是string的作用)
复合数据类型:Map , Tuple , Bag
Bag如({('age,31'),('name','张三')})
shell脚本
>pig(进入到pig的命令界面)
*****加载HDFS中的数据转换成pig可以处理的模式
语法:集合名 = LOAD ’HDFS数据源路径‘ AS (属性名:属性类型);//注意用“;”结尾
>A = LOAD '/wlan' as (t0:long,msisdn:chararray,t2:chararray);
****把A中的有用的数据提取出来
语法:集合名= FOREACH A GENERATE ‘属性1’ ,‘属性1’;
>B = FOREACH A GENERATE msisdn , t6 ;
*****分组数据
语法:GROUP B BY '属性名'
> C = GROUP B BY msisdn;
*****数据汇总
注意:分组后,会出现 11111111,{('age,31'),('name','张三')}等数据,其中“11111111”的别名就是用“group”替代
语法:FOREACH C GENERATE group SUM(集合名.属性名);
>FOREACH C GENERATE group, SUM(B.t6), SUM(B.t7), SUM(B.t8), SUM(B.t9);
*******存储到HDFS中
语法:STORE 集合名 into 'HDFS数据源路径'
>STORE D INTO '/wlan_result';
******排序数据
语法:集合名 = order 排序集合名 by 排序属性 ;
>F = order D by group ;
剩下的功能就自己看他内置的帮助文档哦 ^~^