Pig系统分析(1)-概述

本系列文章分析Pig运行主线流程,目的是借鉴Pig Latin on Hadoop,探索(类)Pig Latin on Spark的可能性。

Pig概述

Apache Pig是Yahoo!为了让研究人员和工程师能够更简单处理、分析和挖掘大数据而发明的。从数据访问的角度来看,可以把YARN当成大数据的操作系统,那么Pig是各种不同类型的数据应用中不可或缺的一员。


尽管Pig的学习成本比Hive要高一些,但是Pig的优点是表达能力和灵活性更胜一筹。如果说用户使用声明式的Hive Hql表达的只是想要什么数据,那么用户使用过程式的Pig Lation,通过一连串的语句组合,能够充分控制数据分析的整个流程。

Pig整体流程



名词解释


名词

解释

备注

Pig Latin

Pig的数据流处理语言

 

Loader/Store

Pig用于加载和存储数据

 

Schema

加载数据时指定的数据格式

Pig的数据类型分为标量和复杂类型,标量基本和Java基本数据类型一致,复杂类型包括Tuple(元组)、Map和Bag(元组的无序集合)

Relation

Pig操作的数据集合

即元组的集合,或者说就是一个Bag(更精确来说外部Bag,因为存在嵌套的内部Bag)

Logical plan

逻辑执行计划

 

Physical plan

物理执行计划

 

Optimizer

优化器

基于规则的逻辑优化器

DAG

Directed Acyclic Graph有向无环图

 



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值