Pig

最新推荐文章于 2022-10-06 14:20:03 发布

clypm

最新推荐文章于 2022-10-06 14:20:03 发布

阅读量1.0k

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/clypm/article/details/79454056

版权

Hadoop 专栏收录该内容

28 篇文章 1 订阅

订阅专栏

Pig的简介

　　Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

　　Compare：相比Java的MapReduce API，Pig为大型数据集的处理提供了更高层次的抽象，与MapReduce相比，Pig提供了更丰富的数据结构，一般都是多值和嵌套的数据结构。Pig还提供了一套更强大的数据变换操作，包括在MapReduce中被忽视的连接Join操作。

　Pig包括两部分：

用于描述数据流的语言，称为Pig Latin。
用于执行Pig Latin程序的执行环境，当前有两个环境：单JVM中的本地执行环境和Hadoop集群上的分布式执行环境。

　　Pig内部，每个操作或变换是对输入进行数据处理，然后产生输出结果，这些变换操作被转换成一系列MapReduce作业，Pig让程序员不需要知道这些转换具体是如何进行的，这样工程师可以将精力集中在数据上，而非执行的细节上。

Pig与Hive的区别

　　对于开发人员，直接使用Java APIs可能是乏味或容易出错的，同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案，使得Hadoop编程变得更加容易。

　　•Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。

　　•Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS，并允许使用类似于SQL语法进行数据查询。与Pig一样，Hive的核心功能是可扩展的。

　　Pig和Hive总是令人困惑的。Hive更适合于数据仓库的任务，Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。Pig赋予开发人员在大数据集领域更多的灵活性，并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。Pig相比Hive相对轻量，它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。正因为如此，Pig仍然是吸引大量的软件开发人员。

安装与环境配置

下载pig的压缩包，这里使用的是pig-0.17.0版本，官网（URL：http://pig.apache.org/releases.html）

wget http://mirrors.hust.edu.cn/apache/pig/pig-0.17.0/pig-0.17.0.tar.gz

tar zxvf pig-0.17.0.tar.gz

环境配置vi ~/.bashrc

#PIG
export PIG_HOME=/usr/local/hadoop/pig-0.17.0
export PATH=$PIG_HOME/bin:$PATH

生效环境配置source ~/.bashrc

Pig实现各种SQL效果（链接）

clypm

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Pig

Pig的简介　　Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。　　Compare：相比Java的MapReduce API，Pig为大型数据集的处理提供了更高层次的抽象，与MapReduce相...
复制链接

扫一扫

专栏目录