在用pig的过程中,经常需要自己写udf,一般我会写java的udf,配置一个maven的项目来管理。
一个基本的pig java udf的maven项目的pom定义如下:
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.x</groupId>
<artifactId>PigUdf</artifactId>
<version>0.0.1-SNAPSHOT</version>
<dependencies>
<!-- ProtoBuf -->
<dependency>
<groupId>com.google.protobuf</groupId>
<artifactId>protobuf-java</artifactId>
<version>2.5.0</version>
<scope>provided</scope>
</dependency>
<dependency>
<groupId>com.x</groupId>
<artifactId>commons-protobuf</artifactId>
<version>0.1.1</version>
<scope>system</scope>
<systemPath>${basedir}/jars/commons-protobuf.jar</systemPath>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.2.0</version>
</dependency>
<dependency>
<groupId>org.apache.pig</groupId>
<artifactId>pig</artifactId>
<version>0.13.0</version>
<scope>provided</scope>
</dependency>
</dependencies>
<build>
<finalName>${project.artifactId}</finalName>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>2.3.2</version>
<configuration>
<source>1.6</source>
<target>1.6</target>
<compilerVersion>1.6</compilerVersion>
</configuration>
</plugin>
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
</configuration>
<executions>
<execution>
<id>config</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>
其中这个dependency来自pig java的接口:
<dependency>
<groupId>org.apache.pig</groupId>
<artifactId>pig</artifactId>
<version>0.13.0</version>
<scope>provided</scope>
</dependency>
然后配置好maven的repository,执行命令
mvn clean package
在taget目录下,会得到一个jar包。假设我们写了一个udf叫:CalcMetric(),编译得到myudf-jar-with-dependencies.jar
这个时候,假设我们有个pig:
register PigUdf.jar;
DEFINE CalcMetric com.x.pig.udf.CalcMetric();
raw_data = load '$input' using PigStorage('\u0001') as (val:long);
metrics_data = foreach raw_data generate CalcMetric(val) as metric;
store metrics_data into '$output' using PigStorage('\0001', '-schema');
那么我们这么运行pig:
pig -f mypig.pig -param input=/user/tom/test/input_data -param output=/user/tom/test/output_data
Pig中register语句指明需要使用的jar包,后面跟着jar包的路径,这是一个local路径,不是HDFS路径。也可以在pig script中只写jar包名字,在命令行指定classpath:
-cp $your_path
或者
-Dpig.additional.jars='your_jar_path'
如果需要访问其他数据文件,比如这个java udf依赖于一个本地文件来初始化。因为java udf会在hadoop grid node上也做一次初始化,所以必须保证在grid node上也有这个问题,这个时候,需要使用到hadoop的DistributedCache。可以用这个命令:
-Dtmpfiles='$your_file'
或者,在pig script中写上:
set mapred.cache.files 'your_file'