Pig
张包峰
Distributed Computing
展开
-
Pig源码分析: 逻辑执行计划优化
本文分析的是逻辑执行计划优化的代码结构,具体每种Rule的实现不做分析。原创 2014-04-13 21:52:30 · 2598 阅读 · 0 评论 -
flare-spork: 自己维护的Pig on Spark项目
很早以前有个Pig Spork分支,尝试把Pig迁移到Spark上,但是代码很久没有更新了。目前Pig on Spark应该是在Twitter内部进行着。flare-spork是基于Spork对Pig和Spark的衔接,把Spark部分的代码迁移到了Pig 0.12.0上,并且升级了依赖和版本,升级为Scala 2.10.3,Spark 0.9.1,且兼容Hadoop 2.2.0。目前项目在Github上,地址。打算参考Spork已经做的一些东西,继续Pig on Spark的开发。Github原创 2014-04-29 17:00:46 · 3091 阅读 · 0 评论 -
Pig源码分析: 简析执行计划的生成
本文通过跟代码的方式,分析从输入一批Pig-latin到输出物理执行计划(与launcher引擎有关,一般是MR执行计划,也可以是Spark RDD的执行算子)的整体流程。不会具体涉及AST如何解析、如何使用了Anltr、逻辑执行计划如何映射、逻辑执行计划如何优化、MR执行计划如何切分为MR Job,而是从输入一批Pig DSL到待执行的真正执行计划的关键变化步骤(方法和类)。原创 2014-05-07 20:36:01 · 3782 阅读 · 0 评论 -
Apache DataFu: LinkedIn开源的Pig UDF库
Apache DataFu分两部分,本文介绍的是其Pig UDF的部分。代码在Github上开源。DataFu里面是一些Pig的UDF,主要包括这些方面的函数:bags、geo、hash、linkanalysis、random、sampling、sessions、sets、stats、urls每方面都对应一个package。我把所有的函数源码都浏览了一遍。其实本身对这些UDF的使用,官方的文档上都有介绍,而且源码的注释里也些的很清晰。所以使用本身是很简单的。从实现角度看,继承自Pig Ev原创 2014-05-08 17:37:36 · 3515 阅读 · 0 评论 -
Spork: Pig on Spark实现分析
介绍Spork是Pig on Spark的highly experimental版本,依赖的版本也比较久,如之前文章里所说,目前我把Spork维护在自己的github上:flare-spork。本文分析的是Spork的实现方式和具体内容。Spark Launcher在hadoop executionengine包路径下,写了一个Spark启动器,同MapReduceLauncher类似,会在launchPig的时候,把传入的物理执行计划进行翻译。MR启动器翻译的是MR的操作,以及进一步的MR原创 2014-05-08 16:51:14 · 3702 阅读 · 0 评论 -
Pig源码分析: 逻辑执行计划模块
Pig源码分析: 逻辑执行计划模块原创 2014-04-10 19:51:33 · 2997 阅读 · 0 评论