13.Spark SQL：UDF自定义函数实战

最新推荐文章于 2023-04-06 09:26:13 发布

不埋雷的探长

最新推荐文章于 2023-04-06 09:26:13 发布

阅读量1.4k

点赞数 4

分类专栏： Spark - 熟练应用文章标签： spark_sql

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/weixin_32265569/article/details/78535714

版权

Spark - 熟练应用专栏收录该内容

46 篇文章 6 订阅

订阅专栏

UDF：User Defined Function。用户自定义函数。

scala版本

package cn.spark.study.sql


import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.types.StructType;
import org.apache.spark.sql.types.StringType;
import org.apache.spark.sql.types.DoubleType;
import org.apache.spark.sql.types.StructField;
// 手动导入一个函数
import org.apache.spark.sql.functions._


object UDF {
  def main(args:Array[String]){
    val conf = new SparkConf()
      .setMaster("local")
      .setAppName("UDF")
    val sc = new SparkContext(conf);
    val sqlContext = new SQLContext(sc);
    
    // 构造模拟数据
    val names = Array("Leo", "Mary", "Jack", "Tom")
    val namesRDD = sc.parallelize(names, 5)
    val namesRowRDD = namesRDD.map{name => Row(name)}
    val structType = StructType(Array(StructField("name", StringType, true)))
    val namesDF = sqlContext.createDataFrame(namesRowRDD, structType)
        
    // 注册一张names表
    namesDF.registerTempTable("names")
    
    // 定义和注册自定义函数
    // 定义函数：自己写匿名函数
    // 注册函数：SQLContext.udf.reqister()
    sqlContext.udf.register("strLen", (str:String) => str.length())
    
    // 使用自定义函数
    sqlContext.sql("select name, strLen(name) from names")
      .collect()
      .foreach(println)
  }
}

java版本

package cn.spark.study.sql;


import java.util.Arrays;
import java.util.List;


import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;


/**
 * SPARK sql编写UDF自定义函数（JAVA）
 * @author leizq120310
 *
 */


public class UDF {


	public static void main(String[] args) {
		SparkConf conf = new SparkConf()
				.setMaster("local")
				.setAppName("UDF");
		JavaSparkContext sc = new JavaSparkContext(conf);
		SQLContext sqlContext = new SQLContext(sc);
		
		// 构造模拟数据
		List<String> names = Arrays.asList("Leo", "Mary", "Jack", "Tom");
		JavaRDD<String> namesRDD = sc.parallelize(names);
		JavaRDD<Row> namesRowRDD = namesRDD.map(new Function<String, Row>() {
			private static final long serialVersionUID = 1L;


			@Override
			public Row call(String name) throws Exception {
				// TODO Auto-generated method stub
				return RowFactory.create(name);
			}
		});
		
		// 构造元数据
		List<StructField> structFields = Arrays.asList(
				DataTypes.createStructField("name", DataTypes.StringType, true));
		StructType structType = DataTypes.createStructType(structFields);
		
		// 创建DataFrame
		DataFrame namesDF = sqlContext.createDataFrame(namesRowRDD, structType);
		
		// 注册一张names表
		namesDF.registerTempTable("names");
		
	    // 定义和注册自定义函数
	    // 定义函数：自己写匿名函数
	    // 注册函数：SQLContext.udf().reqister()
		/**
		 * Function可以使用UDF1到UDF22/21，所表达的意思就是几个参数，2代就指两个参数，10代指10个参数
		 * return 返回的即为UDF<> 的最后一个参数
		 */
		sqlContext.udf().register("strLen", new UDF1<String, Integer>() {


			private static final long serialVersionUID = 1L;


			@Override
			public Integer call(String name) throws Exception {
				// TODO Auto-generated method stub
				return name.length();
			}
		}, DataTypes.IntegerType);
		
	    // 使用自定义函数，查询数据
		List<Row> rows = sqlContext.sql("select name, strLen(name) from names").javaRDD().collect();
		
		// 打印数据
		for (Row row : rows)
		{
			System.out.println("name:" + row.get(0) + "  长度：" + row.get(1));
		}
	      
		// 关闭JavaSparkConf
		sc.close();
	}
}

文章最后，给大家推荐一些受欢迎的技术博客链接：

欢迎扫描下方的二维码或搜索公众号“10点进修”，我们会有更多、且及时的资料推送给您，欢迎多多交流！

不埋雷的探长

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
13.Spark SQL：UDF自定义函数实战

UDF：User Defined Function。用户自定义函数。scala版本package cn.spark.study.sqlimport org.apache.spark.SparkConf;import org.apache.spark.SparkContext;import org.apache.spark.sql.SQLContext;import org.
复制链接

扫一扫