Pig系统分析(1)-概述

最新推荐文章于 2022-11-18 22:21:16 发布

_猪头饼_

最新推荐文章于 2022-11-18 22:21:16 发布

阅读量1.9k

点赞数

分类专栏： Distributed Programming ~Pig Pig系统分析文章标签： pig 大数据 hadoop spark

本文链接：https://blog.csdn.net/idontwantobe/article/details/24262575

版权

13 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

8 篇文章 1 订阅

订阅专栏

本系列文章分析Pig运行主线流程，目的是借鉴Pig Latin on Hadoop，探索(类)Pig Latin on Spark的可能性。

Pig概述

Apache Pig是Yahoo!为了让研究人员和工程师能够更简单处理、分析和挖掘大数据而发明的。从数据访问的角度来看，可以把YARN当成大数据的操作系统，那么Pig是各种不同类型的数据应用中不可或缺的一员。

尽管Pig的学习成本比Hive要高一些，但是Pig的优点是表达能力和灵活性更胜一筹。如果说用户使用声明式的Hive Hql表达的只是想要什么数据，那么用户使用过程式的Pig Lation，通过一连串的语句组合，能够充分控制数据分析的整个流程。

名词	解释	备注
Pig Latin	Pig的数据流处理语言
Loader/Store	Pig用于加载和存储数据
Schema	加载数据时指定的数据格式	Pig的数据类型分为标量和复杂类型，标量基本和Java基本数据类型一致，复杂类型包括Tuple（元组）、Map和Bag（元组的无序集合）
Relation	Pig操作的数据集合	即元组的集合，或者说就是一个Bag（更精确来说外部Bag，因为存在嵌套的内部Bag）
Logical plan	逻辑执行计划
Physical plan	物理执行计划
Optimizer	优化器	基于规则的逻辑优化器
DAG	Directed Acyclic Graph有向无环图

关注

专栏目录