diyicedaan-CSDN博客

原创使用spark 体验数据湖iceberg 的核心特性（DML / Tag / Time Travel SQL）

- 查询当前所有有效快照。

2025-12-22 19:23:52 515

原创 Paimon 写数据的一致性保障和Snapshot生成时机，changelog生成时机

数据写入Paimon表时，Paimon writer算子会首先将数据缓存在内存以及临时文件中。在Flink作业创建检查点（Checkpoint）后，才会将临时文件进行提交（Commit），并产生快照（Snapshot）文件。paimon通过2PC两阶段提交实现数据一致性，具体如下。Paimon的change log生成时机。paimon 的快照生成时机。

2025-11-28 07:24:20 216 1

原创 flink 状态计算简述

状态负责保存这个不断更新、尚未完成的聚合结果（例如当前窗口的总交易额、事件数量）。当新的数据点流入时，模型会根据新数据计算出的梯度来更新这些参数，并将更新后的参数再次保存到状态中，从而实现模型的持续、增量学习。只有当新事件到来时，程序才能将其与状态中记录的历史事件进行比较，看是否能串联成一个完整的、有意义的模式（例如“A事件发生后，在10秒内发生了B事件”）。状态会记住用户最近的交易行为（比如一笔小额在线测试交易），如果紧接着发生了一笔大额消费，状态中记录的小额交易信息就是触发警报模式的关键历史上下文。

2025-11-10 23:48:50 345

原创 jmeter 快速使用

接口满足每秒请求数 500 持续运行3min不报错且 90%相应小于1s 即通过压力测试。3.选中http request 取样器，先清除历史运行记录，然后点击运行。中台的数据服务接口需要进行压力测试，使用jmeter工具验证接口性能。4.聚合报告里看运行结果，结果树里看具体报错信息。2. http请求模块填写接口地址。1.线程组中指定线程数和持续时长。

2025-10-21 14:24:53 153

原创国庆前夕回家遇到的事情

2025-09-27 23:16:10 118

原创生产环境 Impala 最佳实践之参数配置

llama_site_path 和 fair_scheduler_allocation_path。6.队列acl 资源隔离 llama-site.xml.origin。2.query_options 增加超时时间避免长时间运行占用资源。3.物理内存限制避免机器内存耗尽。4.单个查询单节点内存限制。7.自助分析增加参数。5.增加资源配置文件。

2025-07-01 23:18:40 214

原创 spark reduce阶段内存不足报错：FetchFailedException failed to allocate 167772

HighlyCompressedMapStatus对于reduce数据量比较小的，就直接返回一个平均值(这会对数据统计造成误导)，对于数据量比较大的reduce分区(spark.shuffle.accurateBlockThreshold参数控制的，默认100MB)就会返回真实值。spark shuffle过程中，在每个ShuffleMapTask写完数据以后，会返回给Driver端的结果，以便记录该次MapTask的任务情况，以及shuffle数据在整个集群的分布情况。所以可以设置以下参数。

2025-06-10 21:07:23 509 1

原创智能驾驶二三事之吉利

最近由于极越暴雷，而百度的ANP量产团队一直服务的是极越的智驾项目，极越的暴雷后，极越的项目就不存在了，这就出现了量产团队没活可干的问题。这对双方来说都是共赢的。针对智驾，近日吉利设定了一个整合小组，由极氪副总裁陈奇作为组长，中央研究院副院长郭阳与路特斯副总裁李博担任副组长，后两者的智驾团队将与极氪的智驾团队进行整合。不难发现，极氪研发内部一直存在“沃尔沃系”“华为系”，前者以谢保军为代表，谢保军所管辖的是软件及电子中心，后者则以姜军与智驾负责人陈奇为代表，两人分别负责智能互联网中心与智驾中心。

2024-12-17 11:48:42 474

原创 FlinkSQL 自定义UDTF函数解析kafka json数组并写入kudu

1.kafka有如下 json数组的数据，flink 需要自定义UDTF 函数解析。3. flinksql 逻辑。2. idea 代码如下。

2024-10-08 16:17:23 684 2

原创帆软报表二次开发之kudu 填报报表使用自定义提交方式实现批量增删改

为了解决帆软填报中 excel批量导入速度慢的问题，使用自定义提交方式的kudu 原生API批量实现增删改功能。

2024-06-06 14:53:55 897 1

原创 java api 实现指定某个时间点查询kafka topic数据

对于千万级的kafka topic，想要精准查询某条数据使用工具是难以实现的，此时需要写代码来解决。

2024-06-06 14:39:02 643 1

原创 flink自定义udf函数解析json数据—类似json_value函数

在flink的计算中，需要预定义udf函数解析kafka的json数据，本文使用java编写flink udf函数实现解析json功能，该类需要继承ScalarFunction,并使用fastjson库。要在Flink中使用这个自定义的ScalarFunction，可以在SQL查询或Table API中注册它，并在表达式中使用它。函数对输入表中的JSON字符串进行解析，提取指定字段的值。方法从JSONObject中获取指定字段的值，并将其返回。在上面的示例中，我们创建了一个名为。然后，我们注册了自定义的。

2024-01-14 12:14:20 1390

原创 spark3问题之如何处理SparkSQL数据倾斜?如何使用Spark3的小文件合并功能？

- 判定倾斜的最低阈值。-- 以字节为单位，定义拆分粒度。(表能被impala查询)set spark.sql.adaptive.skewJoin.skewedPartitionFactor=5;-- 判定倾斜的膨胀系数。-- 小文件合并(动态分区覆盖)

2023-12-12 08:23:30 480

原创 spark.yarn.executor.memoryOverhead和spark.memory.offHeap.size 及spark.executor.extraJavaOptions：-XX:Ma

spark.yarn.executor.memoryOverhead 由操作系统分配，不受jvm控制，用于shuffle 数据传输 spark.executor.extraJavaOptions -XX:MaxDirectMemorySize 是jvm控制的，在日志中看到java.lang.OutOfMemoryError: Direct buffer memory报错时，需要调大此参数 spark.executor.memoryOverhead 是spark中广义的堆外内存，for yarn资源

2023-11-20 09:08:55 713

diyicedaan的专栏

原创使用spark 体验数据湖iceberg 的核心特性（DML / Tag / Time Travel SQL）

原创 Paimon 写数据的一致性保障和Snapshot生成时机，changelog生成时机

原创 flink 状态计算简述

原创 jmeter 快速使用

原创国庆前夕回家遇到的事情

原创生产环境 Impala 最佳实践之参数配置

原创 spark reduce阶段内存不足报错：FetchFailedException failed to allocate 167772

原创智能驾驶二三事之吉利

原创 FlinkSQL 自定义UDTF函数解析kafka json数组并写入kudu

原创帆软报表二次开发之kudu 填报报表使用自定义提交方式实现批量增删改

原创 java api 实现指定某个时间点查询kafka topic数据

原创 flink自定义udf函数解析json数据—类似json_value函数

原创 spark3问题之如何处理SparkSQL数据倾斜?如何使用Spark3的小文件合并功能？

原创 spark.yarn.executor.memoryOverhead和spark.memory.offHeap.size 及spark.executor.extraJavaOptions：-XX:Ma

原创 spark3.1.2的参数配置

原创 hdfs跨集群访问

原创 JAVA通过反射实现CRUD(适用于多字段的大宽表)

原创 flink-cdc 实现oracle 实时同步到kudu

原创 spark3.1.2 AQE功能使用

原创生产环境spark sql实用tips

空空如也

空空如也