Pig Distinct by fields

最新推荐文章于 2021-08-12 22:50:01 发布

superye1983

最新推荐文章于 2021-08-12 22:50:01 发布

阅读量2.3k

点赞数

分类专栏： pig

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/superye1983/article/details/8055660

版权

pig 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

PIG自带的distinct只支持整条记录相同的过滤，并不支持对某些字段的distinct

PIG的说明如下

You cannot use DISTINCT on a subset of fields. To do this, use FOREACH…GENERATE to select the fields, and then use DISTINCT (seeExample: Nested Block).

后面例子中distinct也是先做了FILTER,然后最整个relation进行distinct

但实际应用场景由于不合理的设计和数据冗余等问题，常常需要用到对某些字段单独做distinct，其他字段中的数据部分有用

其实这可以结合group,foreach,和limit来实现

如数据 foo(id,field1,field2,field3)

id=1的时候field1的值有意义且一定相等

id=2的时候field1和field2的值有意义且相等

id=3的时候field1,field2,field3的值有意义且相等

（PS：这样的数据表设计是违反数据库设计范式的）

1,value1,other1_1,other1_2
2,value2_1,value2_2,other2_1
3,value3_1,value3_2,value3_3
1,value1,other1_3,other1_4
1,value1,other1_5,other1_6
2,value2_1,value2_2,other2_2
4,value4_1,value4_2,

只对id做distinct的PIG代码：

foo = LOAD 'foo' USING PigStorage(',') AS (id:int, field1:chararray, field2:chararray, field3:chararray);

foo_group = GROUP foo BY id;

result = FOREACH foo_group{

foo_one = LIMIT foo 1;

GENERATE FLATTEN(foo_one);

}

dump result;

结果：

(1,value1,other1_1,other1_2)
(2,value2_1,value2_2,other2_1)
(3,value3_1,value3_2,value3_3)
(4,value4_1,value4_2,)

以前上代码在PIG0.9.2运行通过

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

superye1983 CSDN认证博客专家 CSDN认证企业博客

码龄18年

25: 原创

112万+: 周排名

68万+: 总排名

11万+: 访问

: 等级

1417: 积分

6: 粉丝

6: 获赞

9: 评论

7: 收藏

私信

关注

热门文章

分类专栏

hadoop 12篇
pig 4篇
hbase 3篇
hive 3篇
oozie 2篇
sqoop 1篇
hdfs 2篇
mapreduce 1篇
linux 3篇
nexus 1篇
maven 2篇
pentaho 1篇
BI 1篇
cdh5 2篇
protobuf 1篇
impala 1篇
cloudera-manage 1篇
lua
thrift 1篇

最新评论

使用nohup在后台运行scp
楞达吃你: nice
使用rmp包安装impala1.4.1
李斯不怨: 原话”而是在启动文件里写死的jar包名字，所以添加jar包的时候要改名“，那启动文件是哪一个？
Hadoop CDH5 手动安装伪分布式模式
天边tbdp: 你这发的是啥，配置文件没有东西
Hive笔记--安装
jzjie: 我也是醉了，尼玛的各种密码修改问题我草草！最后还是没出来再弄吧！
Hive笔记--安装
人人都能看懂的技术: 在别的机器上测试可以，本机上居然不行。root密码是空，改过来的。可能重启之后就好了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。