- 博客(11)
- 收藏
- 关注
原创 帆软报表二次开发 之kudu 填报报表使用自定义提交方式实现批量增删改
为了解决帆软填报 中 excel批量导入速度慢的问题,使用自定义提交方式的kudu 原生API批量实现增删改功能。
2024-06-06 14:53:55
360
1
原创 java api 实现指定某个时间点查询kafka topic数据
对于千万级的kafka topic,想要精准查询某条数据使用工具是难以实现的,此时需要写代码来解决。
2024-06-06 14:39:02
181
1
原创 flink自定义udf函数解析json数据—类似json_value函数
在flink的计算中,需要预定义udf函数解析kafka的json数据,本文使用java编写flink udf函数实现解析json功能,该类需要继承ScalarFunction,并使用fastjson库。要在Flink中使用这个自定义的ScalarFunction,可以在SQL查询或Table API中注册它,并在表达式中使用它。函数对输入表中的JSON字符串进行解析,提取指定字段的值。方法从JSONObject中获取指定字段的值,并将其返回。在上面的示例中,我们创建了一个名为。然后,我们注册了自定义的。
2024-01-14 12:14:20
698
原创 spark3问题之如何处理SparkSQL数据倾斜?如何使用Spark3的小文件合并功能?
- 判定倾斜的最低阈值。-- 以字节为单位,定义拆分粒度。(表能被impala查询)set spark.sql.adaptive.skewJoin.skewedPartitionFactor=5;-- 判定倾斜的膨胀系数。-- 小文件合并(动态分区覆盖)
2023-12-12 08:23:30
167
原创 spark.yarn.executor.memoryOverhead和spark.memory.offHeap.size 及spark.executor.extraJavaOptions:-XX:Ma
spark.yarn.executor.memoryOverhead 由操作系统分配,不受jvm控制,用于shuffle 数据传输 spark.executor.extraJavaOptions -XX:MaxDirectMemorySize 是jvm控制的,在日志中看到java.lang.OutOfMemoryError: Direct buffer memory报错时,需要调大此参数 spark.executor.memoryOverhead 是spark中广义的堆外内存,for yarn资源
2023-11-20 09:08:55
281
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人