Pig基础学习【持续更新中】

最新推荐文章于 2024-08-08 08:10:08 发布

taiyangdixiasj

最新推荐文章于 2024-08-08 08:10:08 发布

阅读量893

点赞数

分类专栏： Hadoop学习 Apache 文章标签： pig

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jing_eva/article/details/46830497

版权

本文介绍了Apache Pig的基础知识，包括基本概念如关系和元组，数据加载操作，以及关系操作如LOAD、DISTINCT、FILTER和FOREACH。此外，还讲解了如何使用UDF（用户定义函数）和Streaming进行数据处理。Pig作为大数据处理的高级查询语言，简化了MapReduce操作，提供了一种更简洁的脚本方式。

摘要由CSDN通过智能技术生成

*本文参考了Pig官方文档以及已有的一些博客，并加上了自己的一些知识性的理解。目前正在持续更新中。*

Pig作为一种处理大规模数据的高级查询语言，底层是转换成MapReduce实现的，可以作为MapReduce的一种脚本语言，大大简化了对数据操作的代码。

**

基本概念和用法

**：
1. 关系（relation）：即包（bag），是一个元组（tuple）的集合。
可将关系/包想象成Spark中RDD的概念。
元组（）同Spark中元组的概念。
2. 简单的文件载入操作：

A = LOAD 'a.txt' AS (col1:chararray, col2:int);
B = GROUP A BY (col1);
DUMP A;
DUMP B;

上段代码将a.txt中的内容加载到变量A中，A的数据结构为A:{col1: chararray,col2:int}，A就是一个包。
注意：
1）这里面=左右两边要有空格，否则报错。
2）load as，dump等不区分大小写。
3）load as后面括号里col1和col2都是别名，如果不指定别名，后面的代码可以使用 $0,$ 1…处理，此处使用别名是为了增强可读性。
3. 包中数据处理操作：

C=FOREACH B GENERATE group, AVG(A.col2);

遍历B中元素产生group,col2平均值

关系操作

LOAD
将数据从文件系统中载入。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。