Pig Java Udf 简介

最新推荐文章于 2021-02-28 22:51:02 发布

ahugeduck

最新推荐文章于 2021-02-28 22:51:02 发布

阅读量2.1k

点赞数

分类专栏： Hadoop 文章标签： pig udf java

本文链接：https://blog.csdn.net/demo_zj/article/details/46544827

版权

Hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在用pig的过程中，经常需要自己写udf，一般我会写java的udf，配置一个maven的项目来管理。

一个基本的pig java udf的maven项目的pom定义如下：

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
	<modelVersion>4.0.0</modelVersion>
	<groupId>com.x</groupId>
	<artifactId>PigUdf</artifactId>
	<version>0.0.1-SNAPSHOT</version>

	<dependencies>

		<!-- ProtoBuf -->
		<dependency>
			<groupId>com.google.protobuf</groupId>
			<artifactId>protobuf-java</artifactId>
			<version>2.5.0</version>
			<scope>provided</scope>
		</dependency>
		<dependency>
			<groupId>com.x</groupId>
			<artifactId>commons-protobuf</artifactId>
			<version>0.1.1</version>
			<scope>system</scope> 
			<systemPath>${basedir}/jars/commons-protobuf.jar</systemPath> 
		</dependency>

		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>2.2.0</version>
		</dependency>

		<dependency>
			<groupId>org.apache.pig</groupId>
			<artifactId>pig</artifactId>
			<version>0.13.0</version>
			<scope>provided</scope>
		</dependency>

	</dependencies>

	<build>
		<finalName>${project.artifactId}</finalName>
		<plugins>
			<plugin>
				<groupId>org.apache.maven.plugins</groupId>
				<artifactId>maven-compiler-plugin</artifactId>
				<version>2.3.2</version>
				<configuration>
					<source>1.6</source>
					<target>1.6</target>
					<compilerVersion>1.6</compilerVersion>
				</configuration>
			</plugin>

			<plugin>
				<artifactId>maven-assembly-plugin</artifactId>
				<configuration>
					<descriptorRefs>
						<descriptorRef>jar-with-dependencies</descriptorRef>
					</descriptorRefs>
				</configuration>
				<executions>
					<execution>
						<id>config</id>
						<phase>package</phase>
						<goals>
							<goal>single</goal>
						</goals>
					</execution>
				</executions>
			</plugin>

		</plugins>
	</build>
</project>

其中这个dependency来自pig java的接口：

		<dependency>
			<groupId>org.apache.pig</groupId>
			<artifactId>pig</artifactId>
			<version>0.13.0</version>
			<scope>provided</scope>
		</dependency>

然后配置好maven的repository，执行命令

mvn clean package

在taget目录下，会得到一个jar包。假设我们写了一个udf叫：CalcMetric()，编译得到myudf-jar-with-dependencies.jar

这个时候，假设我们有个pig：

register PigUdf.jar;

DEFINE CalcMetric com.x.pig.udf.CalcMetric();

raw_data = load '$input' using PigStorage('\u0001') as (val:long);

metrics_data = foreach raw_data generate CalcMetric(val) as metric;

store metrics_data into '$output' using PigStorage('\0001', '-schema');

那么我们这么运行pig：

pig -f mypig.pig -param input=/user/tom/test/input_data -param output=/user/tom/test/output_data

Pig中register语句指明需要使用的jar包，后面跟着jar包的路径，这是一个local路径，不是HDFS路径。也可以在pig script中只写jar包名字，在命令行指定classpath：

-cp $your_path

或者

-Dpig.additional.jars='your_jar_path'

如果需要访问其他数据文件，比如这个java udf依赖于一个本地文件来初始化。因为java udf会在hadoop grid node上也做一次初始化，所以必须保证在grid node上也有这个问题，这个时候，需要使用到hadoop的DistributedCache。可以用这个命令：

-Dtmpfiles='$your_file'

或者，在pig script中写上：

set mapred.cache.files 'your_file'

ahugeduck

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录