Pig Latin语言运算符

最新推荐文章于 2024-06-04 00:55:53 发布

Gao__xi

最新推荐文章于 2024-06-04 00:55:53 发布

阅读量692

点赞数 1

分类专栏：大数据文章标签： Pig组件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Gao__xi/article/details/89279217

版权

大数据专栏收录该内容

12 篇文章 0 订阅

订阅专栏

运算符（使用本地模式）

1.LOAD运算符 LOAD ‘路径名’ USING PigStroage(‘分割符’) AS （表结构）

注路径名如果是本地模式，就是linux路径若是mapreducer模式则是 hdfs路径，分割符默认是 ‘\t’
在这里插入图片描述

在这里插入图片描述
2.DUMP（查看关系中的数据是以元组的形式返回）

3.DESCRIBE 关系名

小结：以上三个操作，类似于将文件内容导入数据表中，包{}就相当于一张表，元组（）就相当于一条记录，元组中的每个字段相当于数据表中的每一列

4.STORE（将关系存到目标路径一般是hdfs上）
在这里插入图片描述

在这里插入图片描述
这里mynba.txt 是个文件夹，就是Java执行 mapreduce程序是生成的文件

查看结果

我们使用Pig的目的就是将一个原始文件，最终生成一个关系（表），最后存入一个新的文件中

在生成关系的过程中不可能只是简单的一个LOAD就完成的，在LOAD所生成的关系后往往要经过，一些字段的筛选，几个关系的结合，和关系的分组之后，才会得到想要的关系，因此接下来就是使用其他的运算符对关系进行处理。。。。。

过滤运算符

1.FILTER（继续以 nbastar那个关系为例吧）

在这里插入图片描述
我要筛选，号码大于11的（中文匹配暂时未解决）

在这里插入图片描述

2.DISTINCT
在这里插入图片描述

去除重复数据
在这里插入图片描述
3.FOREACH GENERATE （select name，team from A ）

分组

在这里插入图片描述

导入文件看看是啥样子的
在这里插入图片描述
结构

查询每个球队所有球员号码

连接

语法：
自连接：新的关系 = JOIN 关系1 By 字段,关系1’ BY 字段; 关系1’和关系1相同
内连接：新的关系 = JOIN 关系1 By 字段，关系2 BY 字段
外连接：左外：新的关系 = JOIN 关系1 By 字段 LEFT OUTER，关系2 BY 字段
右外：新的关系 = JOIN 关系1 By 字段 RIGHT OUTER，关系2 BY 字段
全外：新的关系 = JOIN 关系1 By 字段 FULL OUTER，关系2 BY 字段

还有其他的用法类似，最终生成的是关系 ====》》》》over

个人学习笔记，用于个人记录。。。。。。。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。