pig常用命令

本文介绍了Apache Pig,一种基于Hadoop的数据流处理引擎,及其脚本语言Pig Latin。内容涵盖Pig Latin的基本语法,如注释、加载、存储、关系操作,包括foreach、filter、group by、order by等,并提供了具体的实战示例,如使用三目运算符替换空值、JOIN操作、文件合并、词频统计等。
摘要由CSDN通过智能技术生成

一、pig:

  pig提供了一个基于Hadoop的并行地执行数据流处理的引擎。它包含了一种脚本语言,称为Pig Latin。(类似SQL)

二、Pig Latin:

  1、注释:

    单行:--  

    多行:/* */

  2、输入和输出:

    加载:load '文件'

        using PigStorage(',');

        as (exchange,symbol,date,dividends);

         //使用内置函数PigStorage函数,指定分隔符为',';还有一个加载函数是TextLoader。

        //采用as指定加载数据的模型。

    存储:store 变量 into '输出文件';

    输出:dump 变量;//打印

  3、关系操作:

    foreach:接受一组表达式,然后将它们应用到每条记录中。比如:加载完所有记录,只保留user和id两个字段。

      A = load 'input' as (user:chararray , id:long , address:chararray);

      B = foreach A generate user,id;

    foreach 语句中的UDF(自定义函数)

    Filter:

    Group ××  by

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值