[Spark应用]-- 自定义spark udf计算单词的长度

最新推荐文章于 2024-07-29 14:05:37 发布

oo寻梦in记

最新推荐文章于 2024-07-29 14:05:37 发布

阅读量1.8k

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/high2011/article/details/51540571

Apache Spark 专栏收录该内容

137 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何在Spark SQL中使用自定义UDF函数来计算单词的长度。相较于Hive，Spark的UDF更简洁易用。已进行测试并验证通过，欢迎提出建议和指正。

Spark Sql的UDF函数非常好用，相比Hive，很简洁

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.Row
/**
 * scala内置函数，用户自定义函数
 * 统计单词的长度
 * 
 */
object UDF {
  def main(args:Array[String]):Unit={
    //1\获取context
    val sc=new SparkContext(new SparkConf().setAppName("UDFTest").setMaster("local[1]"))
    //2\获取sqlContext
    val sqlContext=new SQLContext(sc)
    //3\创建测试数据Array
    val datas=Array("tim","jony","cassis","fang")
    //4\并行化，创建RDD
    val dataRDD=sc.para

了解本专栏