diyicedaan-CSDN博客

原创 flink自定义udf函数解析json数据—类似json_value函数

在flink的计算中，需要预定义udf函数解析kafka的json数据，本文使用java编写flink udf函数实现解析json功能，该类需要继承ScalarFunction,并使用fastjson库。要在Flink中使用这个自定义的ScalarFunction，可以在SQL查询或Table API中注册它，并在表达式中使用它。函数对输入表中的JSON字符串进行解析，提取指定字段的值。方法从JSONObject中获取指定字段的值，并将其返回。在上面的示例中，我们创建了一个名为。然后，我们注册了自定义的。

2024-01-14 12:14:20 557

原创 spark3问题之如何处理SparkSQL数据倾斜?如何使用Spark3的小文件合并功能？

- 判定倾斜的最低阈值。-- 以字节为单位，定义拆分粒度。(表能被impala查询)set spark.sql.adaptive.skewJoin.skewedPartitionFactor=5;-- 判定倾斜的膨胀系数。-- 小文件合并(动态分区覆盖)

2023-12-12 08:23:30 112

原创 spark.yarn.executor.memoryOverhead和spark.memory.offHeap.size 及spark.executor.extraJavaOptions：-XX:Ma

spark.yarn.executor.memoryOverhead 由操作系统分配，不受jvm控制，用于shuffle 数据传输 spark.executor.extraJavaOptions -XX:MaxDirectMemorySize 是jvm控制的，在日志中看到java.lang.OutOfMemoryError: Direct buffer memory报错时，需要调大此参数 spark.executor.memoryOverhead 是spark中广义的堆外内存，for yarn资源

2023-11-20 09:08:55 187

diyicedaan的专栏

原创 flink自定义udf函数解析json数据—类似json_value函数

原创 spark3问题之如何处理SparkSQL数据倾斜?如何使用Spark3的小文件合并功能？

原创 spark.yarn.executor.memoryOverhead和spark.memory.offHeap.size 及spark.executor.extraJavaOptions：-XX:Ma

原创 spark3.1.2的参数配置

原创 hdfs跨集群访问

原创 JAVA通过反射实现CRUD(适用于多字段的大宽表)

原创 flink-cdc 实现oracle 实时同步到kudu

原创 spark3.1.2 AQE功能使用

原创生产环境spark sql实用tips

空空如也

空空如也