- 博客(258)
- 资源 (2)
- 收藏
- 关注
原创 paimon实时数据湖教程-分桶详解
文章摘要: Paimon的分桶机制通过哈希函数优化数据存储和查询性能,主要提供五种分桶模式:1)HASH_FIXED固定哈希分桶,适合数据量可预测的场景;2)HASH_DYNAMIC动态哈希分桶,自适应数据量变化;3)CROSS_PARTITION跨分区动态分桶,优化分区表全局分布;4)BUCKET_UNAWARE无感知分桶,适合小数据量表;5)POSTPONE_MODE延迟分桶,提升实时写入性能。每种模式针对不同场景设计,用户需根据数据特点、查询需求等权衡选择。源码通过FlinkSinkBuilder实现
2025-09-21 19:51:52
1159
原创 paimon实时数据湖教程-主键表更新机制
在上一章,我们学习了 Paimon 如何保证每一次写入的原子性和一致性。但数据仓库的核心需求不仅是写入,更重要的是。想象一个场景:我们需要实时更新用户的最新信息,或者实时累加计算用户的消费总额。传统的 Hive 数据湖对此无能为力,每次更新都需要重写整个分区,成本极高。Paimon 通过引入,完美解决了这个问题。本章,我们将揭秘 Paimon 高效更新背后的两大支柱:LSM-Tree 思想的巧妙运用,以及功能强大的合并引擎。
2025-08-15 15:38:19
1197
原创 ClickHouse从入门到企业级实战全解析课程简介
海量数据的分析查询慢如蜗牛,报表一等就是几小时?想构建实时数仓,却不知如何高效处理 Kafka 等流式数据?对 ClickHouse 的众多 MergeTree 引擎感到困惑,不知如何选型?渴望掌握 ClickHouse 的性能调优秘诀,榨干硬件的每一分性能?计划在生产环境部署 ClickHouse 集群,但对配置、运维和监控感到无从下手?现在,告别所有困惑!这门《ClickHouse 王者之路》课程,是我们精心打造的一套体系化、实战化、深度化的 ClickHouse 终极学习指南。
2025-08-13 18:29:06
891
原创 什么是Paimon?Paimon是什么?
Paimon 本质上是一种数据存储格式和计算引擎的中间层。它让原本只能“追加”、不能“更新”、查询缓慢的数据湖,摇身一变成了一个既能存储海量数据、又能支持实时读写和更新的“湖仓一体(Lakehouse)”架构。特性没有 Paimon 的数据湖(传统方式)有了 Paimon 的数据湖更新数据只能追加新文件,不能原地更新可以像数据库一样,实时增、删、改数据查询批量查询很慢,实时查询很困难既支持快速的实时查询,也支持高效的批量分析架构需要“流处理”和“批处理”两套独立的系统。
2025-07-26 16:40:12
827
原创 ClickHouse高性能实时分析数据库-高性能的模式设计
告别等待,秒级响应!这不只是教程,这是你驾驭PB级数据的超能力!我的ClickHouse视频课,凝练十年实战精华,从入门到精通,从单机到集群。点开它,让数据处理速度快到飞起,让你的职业生涯从此开挂!
2025-07-26 11:45:14
620
原创 ClickHouse高性能实时分析数据库-消费实时数据流(消费kafka)
ClickHouse 的 Kafka 引擎本质上是一个数据流的适配器(Adapter),而不是一个存储引擎。Kafka 引擎本身不存储任何数据。它就像一根管道,直接连接到 Kafka 的 Topic。当你查询一个的表时,ClickHouse 会实时地从 Kafka Topic 中拉取(Consume)消息,并根据你指定的格式(如 JSON, CSV)进行解析,然后将结果返回给你。由于它不存储数据,所以它通常不单独使用,而是与物化视图(Materialized View)
2025-07-26 11:34:29
1434
原创 ClickHouse 高性能实时分析数据库-物化视图篇
clickhouse的物化视图你用对了吗???原始数据量巨大:日志、事件流等数据以极高的速度写入。查询模式固定:分析师或仪表盘(Dashboard)总是对这些原始数据进行固定的聚合查询,例如:每分钟的网站访问量 (PV/UV)每个商品的日销售额每个接口的平均响应时间如果每次查询都直接扫描原始数据表,即使 ClickHouse 性能卓越,当数据量达到千亿甚至万亿级别时,查询延迟也会增加,计算资源消耗巨大。普通视图 (View) 能解决问题吗?不能。普通视图只是一个查询别名,它不存储任何数据。
2025-07-25 21:49:03
1492
原创 2025年-ClickHouse 高性能实时分析数据库(大纲版)
OLAP vs. OLTP 场景对比 (交易处理 vs. 分析处理)* 现代数据分析的挑战:海量、高速、多维。
2025-07-25 21:33:45
1393
原创 [2024年]-flink面试真题(四)
[2024年]-flink面试真题(二)[2024年]-flink面试真题(二)[2024年]-flink面试真题(三)
2024-03-11 12:32:31
973
原创 [hive面试真题]-基础理论篇
hive出现code 1 2 3 什么原因 ,怎么处理。hive中如果出现数据倾斜 ,怎么发现 ,怎么处理。工作中hive常见的文件格式 .压缩格式。hive中如何对数据去重 ,有什么区别。发现hive分区中的数据不对怎么处理。工作中hive分区表的应用示例。hive如何优化 ,怎么优化。hive中关联方式有哪几种。hive中分区表,分桶表。工作时常用的hive函数。谈谈对窗口函数的理解。
2024-03-09 13:16:36
767
原创 [2024年]-flink面试真题(三)
1 (北京)日活是3亿条数据,需要根据1d,2d,7d,天数不固定按照天数使用Flink快速出结果,要怎么做?3 (北京)使用KafkaSource和KafkaSink的精准一次性实现原理。6 (上海 )flink如何保证处理数据过程中的正确性?2 (北京)针对flink-cdc提问,如果丢数据怎么办?5 (上海) flnk的任务失败重启策略有哪些?4 (上海) flink中状态如何管理?
2024-03-09 12:00:25
778
原创 [2024年]-flink面试真题(二)
4(北京)Flink cdc怎么实现同步增量数据和全量数据,底层区别是什么?2 (北京)flink on yarn的模式有哪几种 , 有什么特点?10 (上海)flink和spark streaming的区别?11(上海)Flink中Barrier工作原理,对齐机制和特点?8 (上海)flink是如何管理kakfa的offset。1(北京)什么是flink的两阶段提交?7 (北京)Flink的内存怎么管理?9 (上海)说一下flink的序列化机制。5 (北京)Flink反压机制?
2024-03-09 11:16:54
735
原创 [2024年]-flink面试真题(一)
(北京)flink 端到端(end-to-end)状态一致性如何保证?(北京)taskManager和slot、task的关系?(北京)flink时间语义和Watermark?(北京)谈谈flink双流join,和应用实例?(北京) flink任务出现很高的延迟如何解决?提供微信答疑服务: 17710299606。(北京)flink 的运行架构和执行流程?(北京)flink状态太大怎么解决?(北京)flink迟到数据如何处理的?(北京)什么是flink状态后端?(北京)什么是flink状态?
2024-03-08 13:12:04
910
原创 IDEA快捷键大全,再也不会忘记了 ,建议收藏关注~~
熟练使用 IDEA 快捷键,可以显著提升编码效率。本文汇总了 Windows 系统下 IDEA 的快捷键,非常多,但是没有必有都要记住,仅需要记住下文标注 ✔️ 的必会快捷即可,至于那些使用频率不是很高的快捷键,手动点击菜单即可。注意:本手册列举的都是 IDEA 默认的快捷键,不建议改成其他编辑器的快捷键,如 Eclipse、Visual Code 等。
2024-03-08 12:45:11
1362
原创 比较好用的idea插件分享
不需要再使用 Postman 等外置接口测试工具了,IDEA 内置了 HTTP Client,通过编写请求脚本来进行调用,非常灵活。在顶部菜单的 Tools > HTTP Client 中打开:代码提示补全插件。使用 AI 去自动提示和补全代码,比 IDEA 自带的代码补全更加智能化。注册后自动代码不补全功能!代码浏览插件。通过颜色区分括号嵌套层级,便于阅读,能够更快地对错误代码进行定位和调整。但是建议不要在代码中出现大量的嵌套哦!
2024-03-07 13:01:41
759
原创 分享一个翻译插件:给你不受语言限制、无需繁琐操作的冲浪体验----沉浸式翻译
作为一款基本免费的翻译工具,沉浸式翻译提供了非常丰富的功能,包括了网页翻译、PDF 翻译、EPUB 翻译、字幕翻译以及相应的导出功能,同时通过悬浮球、键盘快捷键、鼠标悬浮等方式来提高翻译的效率,让优秀的功能不被麻烦的调用方式拖累。同时,如果你还想获得更多强大的服务,既可以直接购买沉浸式翻译自己的 Pro 会员,也可以自由购买 DeepL、OpenAI 等第三方的服务,自由度很高。
2024-03-07 12:23:39
3190
原创 强烈推荐学习网站,建议收藏关注~~
Hello Algo - https://www.hello-algo.com/ 58小林编程 - https://xiaolincoding.com/ 46JavaGuide - https://javaguide.cn/ 22虫洞栈 - https://bugstack.cn/ 27B站大数据精品视频 -白眼黑刺猬的个人空间-白眼黑刺猬个人主页-哔哩哔哩视频DevOps指南 - https://tsejx.github.io/devops-guidebook/ 24被删的前端游乐场 -http://ww
2024-03-06 10:44:51
555
原创 精品网站分享,建议关注收藏!~
海量免费高质量Mockup模板|PSD样机|展示模型,包括办公用用品样机、VI样机、Logo样机、化妆品样机、视频饮料样机、药品保健样机、各类盒子、包装盒、包装箱、牛皮纸箱、电子产品、服装样机等等,源文件下载后可以编辑修改文字与贴图图片。西田样机提供免费样机素材/Mockup模板/PSD贴图素材下载,包括办公用用品样机、VI样机、Logo样机、化妆品样机、视频饮料样机、药品保健样机、各类盒子、包装盒、包装箱、牛皮纸箱、电子产品样机、办公样机。一个简约风格的可自定义主题、可切换字体的打字记录和键盘测试网站。
2024-03-05 13:03:38
1119
原创 Docker安装RocketMQ-YASG
1. rocketmq的部署架构。1. rocketmq的部署架构。RocketMQ 网络部署特点。2. 安装NameServer。3. 安装broker。
2022-11-20 23:31:10
514
1
原创 Flink系列文档-(YY10)-Flink时间语义的watermark
由宇宙客观规律以恒定速度,不可停滞地推进 , 而事件时间,并不能像处理时间那样,(事件可能出现延迟,乱序);由于在事件时间语义的世界观中,时间是由流入系统的数据(事件)而推进的;显然,在事件时间语义的世界观中,时间的推进,并不是一件显而易见的事情;下游分区接收上游多个分区的数据,数据时间错落有致,那以谁为准?数据时间存在乱序的可能性,但时光不能倒流啊!1 事件时间推进的困难。1 事件时间推进的困难。
2022-11-13 22:37:06
828
原创 Flink系列文档-(YY08)-Flink核心概念
也可把多个算子的逻辑chain在一起后封装在一个独立的task中(可以有多个运行时实例:subTask);一个算子的逻辑,可以封装在一个独立的task中(可以有多个运行时实例:subTask);同一个task的不同运行实例,必须放在不同的task slot上运行;startNewChain 对算子开启新链(即禁用算子前链合并)同一个task slot,可以运行多个不同task的各一个并行实例;上下游算子属于相同的slotSharingGroup(槽位共享组);3个条件都满足,才能合并为一个task;
2022-11-11 22:28:56
1698
原创 Flink系列文档-(YY07)-Flink编程API-process function
Flink系列文档-(YY07)-Flink编程API-process function
2022-11-11 22:09:20
754
原创 Flink系列文档-(YY04)-Flink编程基础API-Transformation算子
Flink系列文档-(YY04)-Flink编程基础API-Transformation算子
2022-11-07 23:30:18
912
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅