九、pig安装与使用

一、安装

1.上传pig包

 2.解压文件

 3.改名

4.赋权

5.配置环境变量

export PIG_HOME=/usr/local/pig

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$HBASE_HOME/bin:$SQOOP_HOME/bin:$PIG_HOME/bin               

6.测试

本地模式

mapreduce模式 

二、使用

1.查看数据

a 1 2 3 4.2 9.8
a 3 0 5 3.5 2.1
b 7 9 9 - -
a 7 9 9 2.6 6.2
a 1 2 5 7.7 5.9
a 1 2 3 1.4 0.2

2.启动本地调整模式

3.计算2、3、4列所有组合中最后两列的平均值

grunt> A = LOAD 'data.txt' using PigStorage(' ') AS (col1:chararray,col2:int,col3:int,col4:int,col5:double,col6:double);
grunt> B = GROUP A BY (col2,col3,col4);
grunt> C = FOREACH B GENERATE group,AVG(A.col5),AVG(A.col6);
grunt> DUMP C;

 结果如下:

注:

数据类型

chararray字符串类型,表示文本数据
int整数类型,表示整数数据
long长整数类型,适用于大整数数据
float单精度浮点数类型,表示小数数据
double双精度浮点数类型,适用于更高精度的小数数据
bytearray字节数组类型,表示二进制数据
boolean布尔类型,表示逻辑值(true或false)
tuple元组类型,类似于关系数据库中的一行,可包含多个字段
bag包类型,类似于集合,可包含多个元组
map映射类型,用于存储键值对数据
datetime日期和时间类型,表示日期和时间数据
biginteger大整数类型,适用于极大整数数据
bigdecimal大数类型,适用于高精度小数数据

关系运算符

LOAD加载数据
STORE存储结果
FILTER过滤和筛选
DISTINCT        去重
FOREACH,GENERATE生成数据转换
STREAM与外部程序交互
JOIN连接
COGROUP分组为多个关系
GROUP分组
CROSS多个关系的向量积
ORDER排序
LIMIT限制
UNION合并
SPLIT拆分
DUMP输出
DESCRIBE描述
EXPLAIN分析和显示操作的执行计划
ILLUSTRATE查看一行

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清风--明月

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值