inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish )。
Pig是Yahoo!捐献给Apache的一个项目,目前还在Apache孵化器(incubator)阶段,目前版本是v0.5.0。Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。本文介绍了Pig的安装及简单示例的运行,主要参考/翻译自官方文档的Pig Setup 。
前提条件:
- Linux/Unix系统,或带有Cygwin的Windows操作系统,我是用的是Ubuntu 8.04;
- Hadoop 0.20.X
- JDK 1.6或更高
- Ant 1.7(可选,如果想自己编译Pig的话则需要)
- JUnit 4.5(可选,如果自己想运行单元测试的话则需要)
Pig的安装
1.下载Pig
可以去Pig的官方主页下载最新的Pig,在写本篇文章时,最新版本是Pig 0.5.0
2.解压缩
$ tar -xvf pig-0.5.0.tar.gz