6.Pig是一个利用mapreduce进行计算框架。有自己的一套语法PIG latin,可以非常方便的书写计算代码。
7.如何使用pig?
解压缩之后,修改文件conf/pig.properties,增加两行内容,如下
fs.default.name=hdfs://hadoop0:9000
mapred.job.tracker=hadoop0:9001
保存退出后,执行bin/pig进入命令行
8.使用pig完成电信手机号码统计流量
#加载hdfs中的数据
A = LOAD '/kpi' AS (f0:chararray,f1:chararray, f2:chararray, f3:chararray, f4:chararray, f5:chararray, f6:long,f7:long, f8:long, f9:long, f10:chararray);
#过滤A中有用的字段
B = FOREACH A GENERATE f1,f6,f7,f8,f9;
#对B中的记录按照f1进行分组
C = GROUP B BY f1;
#对分组后的记录,按照分组字段进行累加
D = FOREACH C GENERATE group,SUM(B.f6),SUM(B.f7),SUM(B.f8),SUM(B.f9);
#把最后的结果保持到HDFS中
STORE D INTO '/out';
9.以上的pig命令可以放到一个文件中执行,执行方式是pig kpi.pig