- 博客(9)
- 收藏
- 关注
原创 flink自定义udf函数解析json数据—类似json_value函数
在flink的计算中,需要预定义udf函数解析kafka的json数据,本文使用java编写flink udf函数实现解析json功能,该类需要继承ScalarFunction,并使用fastjson库。要在Flink中使用这个自定义的ScalarFunction,可以在SQL查询或Table API中注册它,并在表达式中使用它。函数对输入表中的JSON字符串进行解析,提取指定字段的值。方法从JSONObject中获取指定字段的值,并将其返回。在上面的示例中,我们创建了一个名为。然后,我们注册了自定义的。
2024-01-14 12:14:20 557
原创 spark3问题之如何处理SparkSQL数据倾斜?如何使用Spark3的小文件合并功能?
- 判定倾斜的最低阈值。-- 以字节为单位,定义拆分粒度。(表能被impala查询)set spark.sql.adaptive.skewJoin.skewedPartitionFactor=5;-- 判定倾斜的膨胀系数。-- 小文件合并(动态分区覆盖)
2023-12-12 08:23:30 112
原创 spark.yarn.executor.memoryOverhead和spark.memory.offHeap.size 及spark.executor.extraJavaOptions:-XX:Ma
spark.yarn.executor.memoryOverhead 由操作系统分配,不受jvm控制,用于shuffle 数据传输 spark.executor.extraJavaOptions -XX:MaxDirectMemorySize 是jvm控制的,在日志中看到java.lang.OutOfMemoryError: Direct buffer memory报错时,需要调大此参数 spark.executor.memoryOverhead 是spark中广义的堆外内存,for yarn资源
2023-11-20 09:08:55 187
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人