grunt> A = load 'hdfs://192.168.0.118:9000/user/hadoop/data.txt' as (name:chararray, id:int, age:int);
grunt> B = group A by id;
grunt> C = foreach B generate count A.age;(注意要带括号,并且count必须为大写)
2012-09-11 20:20:12,831 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1200: <line 7, column 29> mismatched input 'A' expecting SEMI_COLON
Details at logfile: /home/hadoop/pig-0.10.0/logs
grunt> C = foreach B generate COUNT(A.id);
grunt> EXPLAIN C;
grunt> B = filter A by age >= 20;(注意>=前后要有空格)
类型 | 操作 | 描述 |
加载与存储 | LOAD | 将数据从外部文件或其它存储中加载数据,存入关系 |
| STORE | 将一个关系存放到文件系统或其它存储中 |
| DUMP | 将关系打印到控制台 |
过滤 | FILTER | 从关系中删除不需要的行 |
| DISTINCT | 从关系中删除重复的行 |
| FOREACH… | 对于集合的每个元素,生成或删除字段 |
| STREAM | 使用外部程序对关系进行变换 |
| SAMPLE | 从关系中随机取样 |
分组与连接 | JOIN | 连接两个或多个关系 |
| COGROUP | 在两个或多个关系中分组 |
| GROUP | 在一个关系中对数据分组 |
| CROSS | 获取两个或更多关系的乘积(叉乘) |
排序 | ORDER | 根据一个或多个字段对某个关系进行排序 |
| LIMIT | 限制关系的元组个数 |
合并与分割 | UNION | 合并两个或多个关系 |
| SPLIT | 把某个关系切分成两个或多个关系 |