大数据
文章平均质量分 91
记录一些大数据学习相关的笔记
wAIxiSeu
大数据持续学习中。VibeCoding爱好者。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
万字长文解析Apache Paimon
Apache Paimon 是一个流式湖仓存储系统,旨在统一实时与批处理数据存储。它通过快照机制实现流批统一,支持高效更新和多引擎访问。Paimon 解决了传统架构如 Lambda 的双系统维护、Kafka 存储限制等问题,适用于实时数仓、CDC 同步等场景。其核心架构基于 LSM Tree 和快照管理,支持批量读取、流式消费和增量查询。Paimon 与 Flink 深度集成,同时兼容 Spark、StarRocks 等计算引擎,提供统一的实时数据湖解决方案。原创 2026-03-10 14:15:54 · 814 阅读 · 0 评论 -
大数据常见存储格式对比:Parquet、ORC、Avro、Arrow与Lance
以下从技术实现角度,系统对比Parquet、ORC、Avro、Arrow与Lance五种存储格式的核心优势与主要劣势,揭示其在数据组织、访问效率与系统兼容性方面的根本差异。:作为最成熟、最广泛支持的列式格式,Parquet在可预见的未来仍将是数据湖架构的默认选择,尤其在与Delta Lake、Iceberg等表格式结合时,其优势难以替代。:随着Python在数据科学中的普及,Arrow在PySpark、Pandas等工具中的集成将进一步深化,成为连接数据工程与数据科学的关键基础设施。原创 2026-01-22 21:37:43 · 730 阅读 · 0 评论 -
StarRocks学习(2):LSM-Tree和Compaction
LSM-Tree(Log-Structured Merge-Tree,日志结构合并树)是一种专为高吞吐写入优化的存储引擎数据结构,广泛应用于现代高性能数据库和存储系统中,如 RocksDB、LevelDB、HBase、Cassandra、StarRocks、ClickHouse(部分场景) 等。将随机写转化为顺序写,并通过后台合并(Compaction)来维持读取效率。LSM-Tree 是一种“以空间换时间、以读/合并开销换写性能”的存储架构。✅。原创 2026-01-18 22:50:56 · 657 阅读 · 0 评论 -
StarRocks学习(1):表聚簇
组件作用存储位置生命周期是否可配置Partition逻辑分区(按时间/范围)元数据(FE)长期,可手动增删✅ 建表时指定Tablet物理分片(Bucket),并行单元元数据 + BE 存储长期,随 Partition 存在✅ BUCKETS 数MemTable写入内存缓冲区BE 内存临时(flush 后消失)✅ 内存阈值Rowset一次导入/Compaction 的版本单元BE 磁盘(目录)中长期(直到被 Compaction 合并)❌ 自动生成Segment。原创 2026-01-18 22:47:16 · 836 阅读 · 0 评论
分享