自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 flink自定义udf函数解析json数据—类似json_value函数

在flink的计算中,需要预定义udf函数解析kafka的json数据,本文使用java编写flink udf函数实现解析json功能,该类需要继承ScalarFunction,并使用fastjson库。要在Flink中使用这个自定义的ScalarFunction,可以在SQL查询或Table API中注册它,并在表达式中使用它。函数对输入表中的JSON字符串进行解析,提取指定字段的值。方法从JSONObject中获取指定字段的值,并将其返回。在上面的示例中,我们创建了一个名为。然后,我们注册了自定义的。

2024-01-14 12:14:20 557

原创 spark3问题之如何处理SparkSQL数据倾斜?如何使用Spark3的小文件合并功能?

- 判定倾斜的最低阈值。-- 以字节为单位,定义拆分粒度。(表能被impala查询)set spark.sql.adaptive.skewJoin.skewedPartitionFactor=5;-- 判定倾斜的膨胀系数。-- 小文件合并(动态分区覆盖)

2023-12-12 08:23:30 112

原创 spark.yarn.executor.memoryOverhead和spark.memory.offHeap.size 及spark.executor.extraJavaOptions:-XX:Ma

spark.yarn.executor.memoryOverhead 由操作系统分配,不受jvm控制,用于shuffle 数据传输 spark.executor.extraJavaOptions -XX:MaxDirectMemorySize 是jvm控制的,在日志中看到java.lang.OutOfMemoryError: Direct buffer memory报错时,需要调大此参数 spark.executor.memoryOverhead 是spark中广义的堆外内存,for yarn资源

2023-11-20 09:08:55 187

原创 spark3.1.2的参数配置

spark3.1.2的参数配置

2023-04-19 14:03:48 307

原创 hdfs跨集群访问

HFDS 跨集群访问

2022-09-29 16:41:16 1219 2

原创 JAVA通过反射实现CRUD(适用于多字段的大宽表)

JAVA通过反射实现CRUD

2022-09-20 20:43:00 250 1

原创 flink-cdc 实现oracle 实时同步到kudu

flink cdc oracle to kudu

2022-09-01 19:18:44 2354

原创 spark3.1.2 AQE功能使用

spark sql AQE

2022-08-19 11:36:31 712

原创 生产环境spark sql实用tips

spark sql调优

2022-08-10 08:51:27 604 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除