Spark Sql的UDF函数非常好用,相比Hive,很简洁
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.Row
/**
* scala内置函数,用户自定义函数
* 统计单词的长度
*
*/
object UDF {
def main(args:Array[String]):Unit={
//1\获取context
val sc=new SparkContext(new SparkConf().setAppName("UDFTest").setMaster("local[1]"))
//2\获取sqlContext
val sqlContext=new SQLContext(sc)
//3\创建测试数据Array
val datas=Array("tim","jony","cassis","fang")
//4\并行化,创建RDD
val dataRDD=sc.para
本文介绍了如何在Spark SQL中使用自定义UDF函数来计算单词的长度。相较于Hive,Spark的UDF更简洁易用。已进行测试并验证通过,欢迎提出建议和指正。
订阅专栏 解锁全文
7022

被折叠的 条评论
为什么被折叠?



