hadoop之pig自定义函数UDF（五）

最新推荐文章于 2019-11-14 21:39:19 发布

焗个面包

最新推荐文章于 2019-11-14 21:39:19 发布

阅读量965

点赞数 1

分类专栏： hadoop

本文链接：https://blog.csdn.net/sureSand/article/details/78998077

版权

hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本节采用eclipse开发简单的pig的自定义函数。
github地址：
https://github.com/lightTrace/Hadoop/tree/master/hadoop-01

一为什么要自定义函数

当我们希望简化程序结构或者需要重用程序代码时，自定义函数就是必须的，这和oracle数据库的function是一个道理。

二准备数据上传到pig中

我准备实现1918年到2018年的温度转换：
温度分类

x>=30 hot

x>=10 and x<30 moderate

x<10 cool

数据在github的temperature.txt中，大家直接复制下来上传到hdfs中,进入到复制好temperature.txt的目录，执行：

hadoop fs -put temperature.txt  /lighttrace/pig

三 eclipse开发自定义函数

1.创建一个project，请注意编译级别需要和实际运行环境的jdk级别相同，项目结构图：

这里写图片描述

getTemType代码：

package cn.com;

import java.io.IOException;

import org.apache.pig.EvalFunc;
import org.apache.pig.data.Tuple;

public class getTemType extends EvalFunc<String> {

         @Override

         public String exec(Tuple tuple) throws IOException {               

                   Object object = tuple.get(0);
                   int temperature = (Integer)object;                 
                   if (temperature >= 30){
                            return "Hot";
                   }
                   else if(temperature >=10){
                            return "Moderate";
                   }

                   else {

                            return "Cool";

                   }                

         }

}

这里的代码就比原生开发reduce的代码友好多了。

四运行自定义函数

在eclipse中右击项目–export–jar，然后将jar包复制到linux目录下，然后运行pig命令运行pig：
1.加载数据

records = load '/lighttrace/pig/temperature1.txt' as (year: chararray,temperature: int);

2.将jar文件注册到pig环境中
这里jar文件不需要上传到

rigister /lighttrace/pig/PigUdf.jar

3.循环调用自定义函数改变数据结构

result = foreach records generate year,cn.com.getTemType(temperature);

4.查看结果：

dump result;

这里写图片描述

焗个面包

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hadoop之pig自定义函数UDF（五）

一 为什么要自定义函数

二 准备数据上传到pig中

三 eclipse开发自定义函数

四 运行自定义函数

一为什么要自定义函数

二准备数据上传到pig中

四运行自定义函数