- 博客(11)
- 收藏
- 关注
原创 Apache Spark使用udf对象注册函数和普通定义的函数
/ 函数体// 最后一行表达式的值将作为返回值普通定义的函数:只能在DataFrame API中使用,不能直接在SQL查询中使用。普通定义的函数:在DataFrame API中使用时,Spark的Catalyst优化器可以对其进行优化。普通定义的函数:在DataFrame API中使用时,类型检查在编译时进行。使用udf对象注册的函数和普通定义的函数各有优缺点。如果你需要在SQL查询中使用自定义逻辑,那么使用udf对象注册的函数是必要的。
2024-07-16 15:33:44 808
原创 spark持久化,行动算子与转化算子
1.Spark Persist是一种将数据持久化到内存中的操作,以便在后续的计算中重复使用。它可以提高计算性能,减少数据读取和写入的开销。
2024-07-15 18:47:11 290
原创 RDD、DataFrame和Dataset的关系
简而言之:DataFrame = RDD(row) + schema(表结构)dataset [row] = DataFrame
2024-07-15 17:04:12 104
原创 spark练习
③统计每个店铺销售额最高的前三个商品,输出内容包括店铺名,商品名和销售额,其中销售额为 0 的商品不进行统计计算,例如:如果某个店铺销售为 0 ,则不进行统计。用try(.....).toOption.getOrElse(0.0)补充:import scal.util. 防止转化时出现异常。如果todouble 和toInt 报错。
2024-07-09 16:16:06 199
原创 7-9Spark算子和sparksql读表时去除表头
/filter 算子过滤val spuRDD = fileRDD.filter(x=>x.startsWith("spu_id")==false)spark 算子利用filter 算子过滤。sparksql 读表的时候直接去除。
2024-07-09 14:58:41 157
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人