电信中心-CSDN博客

原创 Paimon写入性能

当Sorted Run数量较少时，Paimon writer将会在单独的线程中异步执行压缩，因此记录可以连续写入表中。然而，为了避免Sorted Runs的无限增长，当Sorted Run的数量达到阈值时，writer将不得不暂停写入。为了将Sorted Run的数量保持在合理的范围内，Paimon writers将自动执行Compaction。在写入初始化时，bucket的writer需要读取所有历史文件。此配置将在写入高峰期生成更多文件，并在写入低谷期逐渐合并到最佳读取性能。

2025-02-04 21:36:58 1330

原创 Paimon Lookup Join优化实践

Paimon 表支持作为维表做 Lookup Join，相较于 Iceberg 表，Paimon 表的优势在于实现了更好的缓存、以及支持更大的数据量。Lookup Join Iceberg 表时会将所有数据缓存在内存中，所以数据量大时容易造成 OOM（Out of Memory，内存溢出）。但是 Paimon 表支持内存、本地磁盘以及远端存储三级存储策略，这样对维表的数据量没有太大的限制。不过，这并不意味着维表可以无限大。根据经验，如果维表太大，那么 Lookup Join 的性能就会很差。

2025-01-08 21:12:38 1489

原创 Flink维表方案选型

点查时间延迟内存资源开销支持双流 Join稳定性建议维表大小维表实时性存储状态MySQL100毫秒级开销低支持稳定性低GB级别读入即可见Iceberg毫秒级开销较大不支持文件格式，稳定性高100MB级别存在ck延迟Paimon10毫秒-100毫秒开销适中支持文件格式，稳定性高GB级别存在ck延迟Doris100毫秒级开销低不支持服务，稳定性低GB级别读入即可见Hologres毫秒级（主键查询）/ 100毫秒级（非主键查询）开销低。

2025-01-08 20:07:44 1561

原创 Iceberg 写入时优化

MERGE INTO。

2024-11-10 23:29:33 1716 1

原创 Iceberg 写入和更新模式，COW，MOR（Copy-on-Write,Merge-on-Read)

Copy-On-Write 模式在 v1 表或者 v2 表都可以使用。

2024-11-10 20:30:18 1844

原创 Spark优化- 通过ReuseExchange策略复用shuffle的中间结果

需要调整的部分仅仅是数据源读取，其他部分的代码保持不变。经过这个微小的改动之后，我们重新在 resultDF 之上调用 explain 或是查看 Spark UI 会发现，在新的物理计划中，count 或是 countDistinct 分支出现了 ReuseExchange 字样，也就是其中一方复用了另一方的 Exchange 结果。另外，你可能也会发现，复用 Shuffle 中间结果的是两个不完全相同的查询，一个是用 count 做统计计数，另一个是用 countDistinct 做去重计数。

2024-07-21 17:59:53 359

原创 Spark Join优化案例：Join Key 远大于 Payload

要知道，我们要构建的，是以小时为单位的时序序列，但由于流量的切割粒度非常细致，因此有些种类的流量不是每个小时都有访问量的，如下图所示。生成的方法分两步：把所有 Join Keys 拼接在一起，把性别、年龄、一直到小时拼接成一个字符串，如图中步骤 1、3 所示使用哈希算法（如 MD5 或 SHA256）对拼接后的字符串做哈希运算，得到哈希值即为“Hash Key”，如上图步骤 2、4 所示在两张表上，我们都进行这样的操作。然后，我们以同样的维度组合统计日志中的访问量，就可以得到图中右侧的“正样本表”。

2024-06-30 23:34:43 1094

原创 Spark Cache 的用武之地

如果 RDD/DataFrame/Dataset 在应用中的引用次数为 1，我们就坚决不使用 Cache如果引用次数大于 1，且运行成本占比超过 30%，我们就考虑启用 Cache（其中，运行成本占比的计算，可以利用 Spark 3.0 推出的 noop 功能）Action 算子要选择 count 才能完全物化缓存数据，以及在调用 Cache 的时候，我们要把待缓存数据赋值给一个变量。这样一来，只要是在这个变量之上的分析操作都会完全复用缓存数据。

2024-06-30 22:45:29 1134

原创 LeetCode每日一题 2734.子串操作后的字典序最小字符串|标志位遍历字符数组

希望这篇博客能够帮助你理解如何通过标志位和中断操作来高效地解决这个问题，进一步掌握字符串的操作技巧。欢迎在评论区分享你的看法和疑问！通过这种方法，我们能够高效地解决问题，并确保字符串在经过最少的操作后，字典序最小。#字符串操作 #字典序 #算法 #LeetCode解题 #Scala #编程技巧。目标是通过最少的操作使得字符串变得字典序最小。

2024-06-28 12:51:33 597

原创 LeetCode 每日一题 2748. 美丽下标对的数目

题目要求我们给定一个整数数组nums，找出所有满足特定条件的下标对。这里的特定条件是：如果nums[i]的第一个数字和nums[j]的最后一个数字互质，那么我们称这对下标为“美丽下标对”。🌟。

2024-06-19 23:08:12 917

原创 LeetCode每日一题 | 419 | 甲板上的战舰 |二维数组遍历

✨今天给大家带来的是LeetCode上的第419题——甲板上的战舰(✨。这道题目是一个经典的二维数组遍历问题，要求我们在一个棋盘中找到所有的战舰。接下来给大家详细讲解一下解题思路和主要的数据结构哦~🥳。

2024-06-11 13:39:00 534

原创 LeetCode每日一题 | 2938.区分黑球与白球 | 数组逆序+计数器

这道题其实是一个思路非常清晰的题目，通过逆序遍历和计数器的巧妙使用，我们可以在一次遍历中完成所有计算。希望大家看完后能有所收获，继续加油刷题吧！💪💻我们下期再见～👋记得关注我获取更多LeetCode题解和编程技巧哦！🌟。

2024-06-06 23:30:47 551

原创 LeetCode每日一题：将元素分配到两个数组中 II - 二叉索引树BIT

通过使用二叉索引树（BIT），我们成功地解决了这一复杂的分配问题，保证了分配的高效性和准确性。希望这个方法能帮助到大家！如果有任何问题或者建议，欢迎在评论区留言。💬#LeetCode #算法 #数据结构 #二叉索引树 #BIT #数组分配发布时间：2024-06-05。

2024-06-05 13:42:34 1018

原创【LeetCode每日一题】3067. 在带权树网络中统计可连接服务器对数目-DFS和图

Hey我的编程小伙伴们👋，今天我要和大家分享一道我在LeetCode上遇到的超有趣的题目——编号3067的“在带权树网络中统计可连接服务器对数目”。这是一道非常适合练习DFS和图的题目哦！🤓💻。

2024-06-04 23:22:46 1327

原创 LeetCode每日一题：分糖果II | 数组+简单模拟

在这个问题中，我们需要将指定数量的糖果分配给一队人，每个人按顺序接收糖果，每轮分配的糖果数量依次递增，直到所有糖果分完。。

2024-06-03 23:08:04 446

原创 LeetCode 每日一题：分糖果太简单，一分钟一行秒了！

今天和大家分享一道 LeetCode 上的有趣题目——分糖果 🍭. - 力扣（LeetCode）。题目要求只能吃一半糖果的情况下，尽可能多地让Alice吃到不同种类的糖果。

2024-06-02 14:56:57 344 1

原创 Flink面试题（施工中）

可以使用自定义触发器，解决事件时间，没有数据到达，窗口不触发计算问题，还可以使用持续性触发器，实现一个窗口多次触发输出结果，详细看连接。窗口的创建：当属于某个窗口的第一个元素到达，Flink就会创建一个窗口，并且放入单例集合。窗口什么时候触发：如基于事件时间的窗口 watermark >= end - 1ms。（Flink保证只删除基于时间的窗口，而不能删除其他类型的窗口，例如全局窗口）。窗口的销毁：时间进展 >= 窗口最大时间戳 + 窗口允许延迟时间。窗口的划分：如，基于事件时间的滚动窗口。

2023-08-10 11:10:10 251 1

原创 Kafka 系统的 CAP 保证（HW，Leader-Epoch）

为了解决 HW 更新时机是异步延迟的，Kafka 引入了 leader epoch 机制；在每个副本日志目录下都创建一个 leader-epoch-checkpoint 文件，用于保存 leader 的 epoch 信息，。它的格式为 (epoch offset)，epoch 指的是 leader 版本，它是一个单调递增的一个正整数值，每次 leader变更，epoch 版本都会 +1，offset 是每一代 leader 写入的第一条消息的位移值，比如：(0,0)(1,300)

2023-08-09 14:57:23 911 1

原创 Kafka 面试题（施工中）

详情见：

2023-08-09 14:55:44 187 1

原创 Hive基础知识点

重点集合类型：row format delimited fields terminated by ‘,’ 字段分隔符collection items terminated by ‘_’ 集合元素分隔符map keys terminated by ‘:’ map的kv分隔符行分隔符。

2023-07-29 12:01:23 214 1

原创解决Hive表的中文注释乱码

把 character_set_server=utf8 加入/etc/my.cnf 的 [mysqld] 下方，systemctl restart mysqld 重启mysql。之前创建过的表的注释乱码改不回来了，只能删了重建表喽。进入mysql下的metastore库执行。重启hive的相关进程即可。

2023-07-28 15:19:37 179 1

原创 Hadoop配置参数优化

（1）需求：从1G数据中，统计每个单词出现次数。服务器3台，每台配置4G内存，4核CPU，4线程。（2）需求分析：1G / 128m = 8个MapTask；1个ReduceTask；1个mrAppMaster平均每个节点运行10个 / 3台 ≈ 3个任务（4 3 3）

2023-07-21 11:55:53 696 1

原创【设计模式】简化冗长的ifelse

如何简化冗长的ifelse？

2023-07-08 16:59:15 87

原创 JavaSE考试题库基础题123题

JavaSE考试题123道

2023-06-24 19:28:45 2717 1

原创 SQL连续问题(窗口函数构造等差数列）

step2: 对差值做group by，特殊地，这里用了sum(if())做count(*)，方便用win筛选，最后对sum求最大值就可以了。step2:两个连续值相减为定值的部分即为连续座位，对定值进行groupby，再对count进行筛选即可。step2:两个连续值相减为定值的部分即为连续数字，对定值进行groupby，再对count进行筛选即可。从 2022-01-17 到 2022-01-25, player 1连续赢了三场比赛。step1：Id本身是连续值，再对相同num做窗内排序构造连续值。

2023-05-26 19:33:43 1066 1

PAIN的博客