自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 使用spark 体验数据湖iceberg 的核心特性(DML / Tag / Time Travel SQL)

- 查询当前所有有效快照。

2025-12-22 19:23:52 515

原创 Paimon 写数据的一致性保障和Snapshot生成时机,changelog生成时机

数据写入Paimon表时,Paimon writer算子会首先将数据缓存在内存以及临时文件中。在Flink作业创建检查点(Checkpoint)后,才会将临时文件进行提交(Commit),并产生快照(Snapshot)文件。paimon通过2PC两阶段提交实现数据一致性,具体如下。Paimon的change log生成时机。paimon 的快照生成时机。

2025-11-28 07:24:20 216 1

原创 flink 状态计算简述

状态负责保存这个不断更新、尚未完成的聚合结果(例如当前窗口的总交易额、事件数量)。当新的数据点流入时,模型会根据新数据计算出的梯度来更新这些参数,并将更新后的参数再次保存到状态中,从而实现模型的持续、增量学习。只有当新事件到来时,程序才能将其与状态中记录的历史事件进行比较,看是否能串联成一个完整的、有意义的模式(例如“A事件发生后,在10秒内发生了B事件”)。状态会记住用户最近的交易行为(比如一笔小额在线测试交易),如果紧接着发生了一笔大额消费,状态中记录的小额交易信息就是触发警报模式的关键历史上下文。

2025-11-10 23:48:50 345

原创 jmeter 快速使用

接口 满足 每秒请求数 500 持续运行3min不报错且 90%相应小于1s 即通过压力测试。3.选中http request 取样器 ,先清除历史运行记录,然后点击运行。中台的数据服务接口需要进行压力测试,使用jmeter工具验证接口性能。4.聚合报告里看运行结果 ,结果树里看具体报错信息。2. http请求 模块 填写 接口地址。1.线程组中指定线程数和持续时长。

2025-10-21 14:24:53 153

原创 国庆前夕回家遇到的事情

2025-09-27 23:16:10 118

原创 生产环境 Impala 最佳实践之参数配置

llama_site_path 和 fair_scheduler_allocation_path。6.队列acl 资源隔离 llama-site.xml.origin。2.query_options 增加超时时间避免长时间运行占用资源。3.物理内存限制避免机器内存耗尽。4.单个查询单节点内存限制。7.自助分析 增加参数。5.增加资源配置文件。

2025-07-01 23:18:40 214

原创 spark reduce阶段内存不足报错:FetchFailedException failed to allocate 167772

HighlyCompressedMapStatus对于reduce数据量比较小的,就直接返回一个平均值(这会对数据统计造成误导),对于数据量比较大的reduce分区(spark.shuffle.accurateBlockThreshold参数控制的,默认100MB)就会返回真实值。spark shuffle过程中,在每个ShuffleMapTask写完数据以后,会返回给Driver端的结果,以便记录该次MapTask的任务情况,以及shuffle数据在整个集群的分布情况。所以 可以设置以下参数。

2025-06-10 21:07:23 509 1

原创 智能驾驶二三事之吉利

最近由于极越暴雷,而百度的ANP量产团队一直服务的是极越的智驾项目,极越的暴雷后,极越的项目就不存在了,这就出现了量产团队没活可干的问题。这对双方来说都是共赢的。针对智驾,近日吉利设定了一个整合小组,由极氪副总裁陈奇作为组长,中央研究院副院长郭阳与路特斯副总裁李博担任副组长,后两者的智驾团队将与极氪的智驾团队进行整合。不难发现,极氪研发内部一直存在“沃尔沃系”“华为系”,前者以谢保军为代表,谢保军所管辖的是软件及电子中心,后者则以姜军与智驾负责人陈奇为代表,两人分别负责智能互联网中心与智驾中心。

2024-12-17 11:48:42 474

原创 FlinkSQL 自定义UDTF函数解析kafka json数组并写入kudu

1.kafka有如下 json数组 的数据,flink 需要自定义UDTF 函数解析。3. flinksql 逻辑。2. idea 代码如下。

2024-10-08 16:17:23 684 2

原创 帆软报表二次开发 之kudu 填报报表使用自定义提交方式实现批量增删改

为了解决帆软填报 中 excel批量导入速度慢的问题,使用自定义提交方式的kudu 原生API批量实现增删改功能。

2024-06-06 14:53:55 897 1

原创 java api 实现指定某个时间点查询kafka topic数据

对于千万级的kafka topic,想要精准查询某条数据使用工具是难以实现的,此时需要写代码来解决。

2024-06-06 14:39:02 643 1

原创 flink自定义udf函数解析json数据—类似json_value函数

在flink的计算中,需要预定义udf函数解析kafka的json数据,本文使用java编写flink udf函数实现解析json功能,该类需要继承ScalarFunction,并使用fastjson库。要在Flink中使用这个自定义的ScalarFunction,可以在SQL查询或Table API中注册它,并在表达式中使用它。函数对输入表中的JSON字符串进行解析,提取指定字段的值。方法从JSONObject中获取指定字段的值,并将其返回。在上面的示例中,我们创建了一个名为。然后,我们注册了自定义的。

2024-01-14 12:14:20 1390

原创 spark3问题之如何处理SparkSQL数据倾斜?如何使用Spark3的小文件合并功能?

- 判定倾斜的最低阈值。-- 以字节为单位,定义拆分粒度。(表能被impala查询)set spark.sql.adaptive.skewJoin.skewedPartitionFactor=5;-- 判定倾斜的膨胀系数。-- 小文件合并(动态分区覆盖)

2023-12-12 08:23:30 480

原创 spark.yarn.executor.memoryOverhead和spark.memory.offHeap.size 及spark.executor.extraJavaOptions:-XX:Ma

spark.yarn.executor.memoryOverhead 由操作系统分配,不受jvm控制,用于shuffle 数据传输 spark.executor.extraJavaOptions -XX:MaxDirectMemorySize 是jvm控制的,在日志中看到java.lang.OutOfMemoryError: Direct buffer memory报错时,需要调大此参数 spark.executor.memoryOverhead 是spark中广义的堆外内存,for yarn资源

2023-11-20 09:08:55 713

原创 spark3.1.2的参数配置

spark3.1.2的参数配置

2023-04-19 14:03:48 526

原创 hdfs跨集群访问

HFDS 跨集群访问

2022-09-29 16:41:16 1656 2

原创 JAVA通过反射实现CRUD(适用于多字段的大宽表)

JAVA通过反射实现CRUD

2022-09-20 20:43:00 343 1

原创 flink-cdc 实现oracle 实时同步到kudu

flink cdc oracle to kudu

2022-09-01 19:18:44 2705

原创 spark3.1.2 AQE功能使用

spark sql AQE

2022-08-19 11:36:31 1048

原创 生产环境spark sql实用tips

spark sql调优

2022-08-10 08:51:27 747 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除