Pig的EvalFunc UDF函数

Pig的EvalFunc UDF函数,结果一执行,发现返回值,总是bag类型,我就纳闷了,我明明指定了返回是String类型,怎么会变成Bag类型呢?经查找,发现拷贝的问题,由于先前写的UDF函数,返回值是多个,而现在的这个是一个,所以导致,我在pig脚本里面,进行强转string类型出错,发现问题后,设置返回类型为DataType.CHARARRAY问题得以解决。
案例(一),输入值为多个参数,返回也为多个参数 

Java代码
  1. package com.easy.pig;  
  2.   
  3. import com.easy.similar.model.ResultModel;  
  4. import com.easy.similar.tools.TextBuildID;  
  5. import org.apache.pig.EvalFunc;  
  6. import org.apache.pig.data.*;  
  7. import org.apache.pig.impl.logicalLayer.schema.Schema;  
  8.   
  9. import java.io.IOException;  
  10.   
  11. /** 
  12.  * Created by qindongliang on 2015/9/29. 
  13.  * 根据一篇内容返回md5和关键词words 
  14.  */  
  15. public class FingerUDF  extends EvalFunc<DataBag>  {  
  16.   
  17.   
  18.     /**tuple实例**/  
  19.     TupleFactory mTupleFactory = TupleFactory.getInstance();  
  20.     /**Bag实例*/  
  21.     BagFactory mBagFactory = BagFactory.getInstance();  
  22.   
  23.     /**md5构建**/  
  24.      TextBuildID textBuildID = new TextBuildID();  
  25.   
  26.   
  27.   
  28.   
  29.   
  30.     @Override  
  31.     public DataBag exec(Tuple tuple) throws IOException {  
  32.         try {  
  33.             DataBag output = mBagFactory.newDefaultBag();  
  34.             Object o = tuple.get(0);  
  35.             //返回多少句子  
  36.             int num_sentence = Integer.parseInt(tuple.get(1).toString());  
  37.             //返回几个关键词  
  38.             int num_words = Integer.parseInt(tuple.get(2).toString());  
  39.             //使用指纹算法 1  还是分词算法 2  
  40.             int type=Integer.parseInt(tuple.get(3).toString());  
  41.             //参与扩展计算的指纹,null的直接返回空  
  42.             String ext=tuple.get(4)==null?"":tuple.get(4).toString();  
  43.             //设置句子数量  
  44.             textBuildID.top_N_Sentence=num_sentence;  
  45.             //设置返回指纹数量  
  46.             textBuildID.top_N_Words=num_words;  
  47.             //设置去重算法类型  
  48.             textBuildID.type=type;  
  49.             ResultModel ro=textBuildID.buildID(o.toString(),ext);  
  50.             output.add(mTupleFactory.newTuple(ro.getMd5()));//获取md5值  
  51.             output.add(mTupleFactory.newTuple(ro.getWords()));//获取指纹关键词  
  52.             return output;  
  53.         } catch (Exception ee) {  
  54.             // error handling goes here  
  55.             ee.printStackTrace();  
  56.         }  
  57.   
  58.   
  59.         return null;  
  60.     }  
  61.   
  62.   
  63.     /**描述scheaml形式*/  
  64.     public Schema outputSchema(Schema input) {  
  65.         try{  
  66.             Schema bagSchema = new Schema();  
  67.             bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY));  
  68.   
  69.             return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input),  
  70.                     bagSchema, DataType.BAG));  
  71.         }catch (Exception e){  
  72.             return null;  
  73.         }  
  74.     }  
  75.   
  76.   
  77. }  
package com.easy.pig;

import com.easy.similar.model.ResultModel;
import com.easy.similar.tools.TextBuildID;
import org.apache.pig.EvalFunc;
import org.apache.pig.data.*;
import org.apache.pig.impl.logicalLayer.schema.Schema;

import java.io.IOException;

/**
 * Created by qindongliang on 2015/9/29.
 * 根据一篇内容返回md5和关键词words
 */
public class FingerUDF  extends EvalFunc<DataBag>  {


    /**tuple实例**/
    TupleFactory mTupleFactory = TupleFactory.getInstance();
    /**Bag实例*/
    BagFactory mBagFactory = BagFactory.getInstance();

    /**md5构建**/
     TextBuildID textBuildID = new TextBuildID();





    @Override
    public DataBag exec(Tuple tuple) throws IOException {
        try {
            DataBag output = mBagFactory.newDefaultBag();
            Object o = tuple.get(0);
            //返回多少句子
            int num_sentence = Integer.parseInt(tuple.get(1).toString());
            //返回几个关键词
            int num_words = Integer.parseInt(tuple.get(2).toString());
            //使用指纹算法 1  还是分词算法 2
            int type=Integer.parseInt(tuple.get(3).toString());
            //参与扩展计算的指纹,null的直接返回空
            String ext=tuple.get(4)==null?"":tuple.get(4).toString();
            //设置句子数量
            textBuildID.top_N_Sentence=num_sentence;
            //设置返回指纹数量
            textBuildID.top_N_Words=num_words;
            //设置去重算法类型
            textBuildID.type=type;
            ResultModel ro=textBuildID.buildID(o.toString(),ext);
            output.add(mTupleFactory.newTuple(ro.getMd5()));//获取md5值
            output.add(mTupleFactory.newTuple(ro.getWords()));//获取指纹关键词
            return output;
        } catch (Exception ee) {
            // error handling goes here
            ee.printStackTrace();
        }


        return null;
    }


    /**描述scheaml形式*/
    public Schema outputSchema(Schema input) {
        try{
            Schema bagSchema = new Schema();
            bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY));

            return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input),
                    bagSchema, DataType.BAG));
        }catch (Exception e){
            return null;
        }
    }


}



案例(二),输入值为String,返回也为String

Java代码 复制代码  收藏代码
  1. package com.easy.pig;  
  2.   
  3. import org.apache.pig.EvalFunc;  
  4. import org.apache.pig.data.DataType;  
  5. import org.apache.pig.data.Tuple;  
  6. import org.apache.pig.impl.logicalLayer.schema.Schema;  
  7.   
  8. import java.io.IOException;  
  9.   
  10. /** 
  11.  *  处理url 
  12.  */  
  13. public class UrlCvUDF extends EvalFunc<String>  {  
  14.   
  15.   
  16.     @Override  
  17.     public String exec(Tuple tuple) throws IOException {  
  18.         try {  
  19.   
  20.             Object o = tuple.get(0);  
  21.             if(o!=null){  
  22.                 //判断是否为指定url开头的来源  
  23.                 if((o+"").startsWith("http://www.court.gov.cn")){  
  24.                     return "1";  
  25.                 }else{  
  26.                     return "2";  
  27.                 }  
  28.             }  
  29.         } catch (Exception ee) {  
  30.             ee.printStackTrace();  
  31.         }  
  32.         //url 为null 则返回0  
  33.         return "0";  
  34.     }  
  35.   
  36. //  
  37.     /**描述scheaml形式*/  
  38.     public Schema outputSchema(Schema input) {  
  39.         try{  
  40.             Schema bagSchema = new Schema();  
  41.             bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY));  
  42.             //注意此处返回值要与泛型里面的对应  
  43.             return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input),  
  44.                     bagSchema, DataType.CHARARRAY));  
  45.         }catch (Exception e){  
  46.             e.printStackTrace();  
  47.             return null;  
  48.         }  
  49.     }  
  50.   
  51.   
  52. }  
package com.easy.pig;

import org.apache.pig.EvalFunc;
import org.apache.pig.data.DataType;
import org.apache.pig.data.Tuple;
import org.apache.pig.impl.logicalLayer.schema.Schema;

import java.io.IOException;

/**
 *  处理url
 */
public class UrlCvUDF extends EvalFunc<String>  {


    @Override
    public String exec(Tuple tuple) throws IOException {
        try {

            Object o = tuple.get(0);
            if(o!=null){
                //判断是否为指定url开头的来源
                if((o+"").startsWith("http://www.court.gov.cn")){
                    return "1";
                }else{
                    return "2";
                }
            }
        } catch (Exception ee) {
            ee.printStackTrace();
        }
        //url 为null 则返回0
        return "0";
    }

//
    /**描述scheaml形式*/
    public Schema outputSchema(Schema input) {
        try{
            Schema bagSchema = new Schema();
            bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY));
            //注意此处返回值要与泛型里面的对应
            return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input),
                    bagSchema, DataType.CHARARRAY));
        }catch (Exception e){
            e.printStackTrace();
            return null;
        }
    }


}




案例一的pig脚本:

Java代码 复制代码  收藏代码
  1. --SET debug 'on'  
  2.   
  3. --REGISTER ./aa.jar  
  4. REGISTER ./udf-pig-similarty-hbase-1.0-SNAPSHOT-jar-with-dependencies.jar  
  5. REGISTER ./pig-udf-extend-1.0.1-SNAPSHOT-jar-with-dependencies.jar  
  6.   
  7. --mkdir /user/webmaster/crawldb/finger/  
  8. --rmf /user/webmaster/crawldb/finger/  
  9.   
  10. mkdir /user/webmaster/search/monitor/finger-data;  
  11. rmf  /user/webmaster/search/monitor/finger-data;  
  12.   
  13.   
  14.   
  15. set job.name 'pig-hbase-build-index'  
  16.   
  17.   
  18. a = load 'hbase://ETLDB' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('content:conn content:casenum,meta:isdelete','-loadKey true  ');  
  19.   
  20. --a = foreach a generate FLATTEN(com.easy.pig.FingerUDF((chararray)$1));  
  21. -- 4个参数  0:文章内容   1:前n最长的句子数,2:前n关键词,3:判重算法, 1=>指纹 2=>分词  
  22. a = foreach a generate $0 as rowkey:chararray , BagToString(com.easy.pig.FingerUDF((chararray)$1,5,8,1,$2),'@') as info:chararray,$2 as casenum:chararray , $3 as isdel:chararray ;  
  23. --a = foreach a generate $2 as num:chararray;  
  24.   
  25. --a = limit a 50;  
  26.   
  27. --dump a;  
  28. --describe a;  
  29. a = foreach a generate $0 as rowkey:chararray , STRSPLIT(info,'@',2).$0 as finger_md5:chararray ,STRSPLIT(info,'@',2).$1 as finger_content:chararray ,casenum,isdel ;  
  30.   
  31. --describe a;  
  32.   
  33. store a into  '/user/webmaster/search/monitor/finger-data'  using com.pig.support.lucene.LuceneStore('row:true:false,finger_md5:true:false,finger_content:true:false,casenum:true:false,isdel:true:false','default');  
--SET debug 'on'

--REGISTER ./aa.jar
REGISTER ./udf-pig-similarty-hbase-1.0-SNAPSHOT-jar-with-dependencies.jar
REGISTER ./pig-udf-extend-1.0.1-SNAPSHOT-jar-with-dependencies.jar

--mkdir /user/webmaster/crawldb/finger/
--rmf /user/webmaster/crawldb/finger/

mkdir /user/webmaster/search/monitor/finger-data;
rmf  /user/webmaster/search/monitor/finger-data;



set job.name 'pig-hbase-build-index'


a = load 'hbase://ETLDB' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('content:conn content:casenum,meta:isdelete','-loadKey true  ');

--a = foreach a generate FLATTEN(com.easy.pig.FingerUDF((chararray)$1));
-- 4个参数  0:文章内容   1:前n最长的句子数,2:前n关键词,3:判重算法, 1=>指纹 2=>分词
a = foreach a generate $0 as rowkey:chararray , BagToString(com.easy.pig.FingerUDF((chararray)$1,5,8,1,$2),'@') as info:chararray,$2 as casenum:chararray , $3 as isdel:chararray ;
--a = foreach a generate $2 as num:chararray;

--a = limit a 50;

--dump a;
--describe a;
a = foreach a generate $0 as rowkey:chararray , STRSPLIT(info,'@',2).$0 as finger_md5:chararray ,STRSPLIT(info,'@',2).$1 as finger_content:chararray ,casenum,isdel ;

--describe a;

store a into  '/user/webmaster/search/monitor/finger-data'  using com.pig.support.lucene.LuceneStore('row:true:false,finger_md5:true:false,finger_content:true:false,casenum:true:false,isdel:true:false','default');




案例二的pig脚本:


Java代码 复制代码  收藏代码
  1. --SET debug 'on'  
  2.   
  3. --REGISTER ./aa.jar  
  4. REGISTER ./udf-pig-similarty-hbase-1.0-SNAPSHOT-jar-with-dependencies.jar  
  5. REGISTER ./pig-udf-extend-1.0.1-SNAPSHOT-jar-with-dependencies.jar  
  6.   
  7. --mkdir /user/webmaster/crawldb/finger/  
  8. --rmf /user/webmaster/crawldb/finger/  
  9.   
  10. mkdir /user/webmaster/search/monitor/finger-data;  
  11. rmf  /user/webmaster/search/monitor/finger-data;  
  12.   
  13.   
  14.   
  15. set job.name 'pig-hbase-build-index'  
  16.   
  17.   
  18. a = load 'hbase://ETLDB' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('content:conn content:casenum meta:isdelete content:url','-loadKey true  ');  
  19.   
  20. --a = foreach a generate FLATTEN(com.easy.pig.FingerUDF((chararray)$1));  
  21. -- 4个参数  0:文章内容   1:前n最长的句子数,2:前n关键词,3:判重算法, 1=>指纹 2=>分词  
  22. a = foreach a generate $0 as rowkey:chararray , BagToString(com.easy.pig.FingerUDF((chararray)$1,5,8,1,''),'@') as info:chararray,$2 as casenum:chararray , $3 as isdel:chararray,   com.easy.pig.UrlCvUDF((chararray)$4)  as source:chararray   ;  
  23. --a = foreach a generate $2 as num:chararray;  
  24.   
  25.   
  26. a = limit a 11;  
  27.   
  28. dump a;  
  29. describe a;  
  30. --describe a;  
  31. --a = foreach a generate $0 as rowkey:chararray , STRSPLIT(info,'@',2).$0 as finger_md5:chararray ,STRSPLIT(info,'@',2).$1 as finger_content:chararray ,casenum,isdel ;  
  32.   
  33. --describe a;  
  34.   
  35. --store a into  '/user/webmaster/search/monitor/finger-data'  using com.pig.support.lucene.LuceneStore('row:true:false,finger_md5:true:false,finger_content:true:false,casenum:true:false,isdel:true:false','default'); 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值