一、pig:
pig提供了一个基于Hadoop的并行地执行数据流处理的引擎。它包含了一种脚本语言,称为Pig Latin。(类似SQL)
二、Pig Latin:
1、注释:
单行:--
多行:/* */
2、输入和输出:
加载:load '文件'
using PigStorage(',');
as (exchange,symbol,date,dividends);
//使用内置函数PigStorage函数,指定分隔符为',';还有一个加载函数是TextLoader。
//采用as指定加载数据的模型。
存储:store 变量 into '输出文件';
输出:dump 变量;//打印
3、关系操作:
foreach:接受一组表达式,然后将它们应用到每条记录中。比如:加载完所有记录,只保留user和id两个字段。
A = load 'input' as (user:chararray , id:long , address:chararray);
B = foreach A generate user,id;
foreach 语句中的UDF(自定义函数)
Filter:
Group ×× by