
大数据
文章平均质量分 91
lifallen
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop MapReduce过程
本文深入解析了MapReduce的执行流程。客户端负责分片计算(getSplits)和作业提交,通过InputFormat将数据逻辑切分为InputSplit;而集群(YARN)负责任务调度执行,包括启动MapTask、创建RecordReader和数据处理。文章详细介绍了MapReduce的完整流程:输入分片、Map阶段、Shuffle(分区、排序、溢写、合并)、Reduce阶段和输出,并阐述了Mapper与Reducer通过中间键值对的联系机制。此外,还探讨了Partitioner的作用。原创 2025-08-10 20:11:27 · 872 阅读 · 0 评论 -
双流join 、 Paimon Partial Update 和 动态schema
Paimon通过partial-update合并引擎和LSM存储结构,将传统双流Join中的Flink状态随机读写转换为顺序写入和后台合并,解决了状态过大和性能瓶颈问题。其核心机制包括:1) 将两流数据独立写入Paimon表;2) 通过PartialUpdateMergeFunction在Compaction时合并相同主键的记录;3) 支持schema自动演进,通过SchemaManager管理版本化schema变更。该方案实现了性能革命、架构简化和开发效率提升,同时支持复杂场景下的字段更新、聚合和删除策略原创 2025-07-23 10:14:24 · 869 阅读 · 2 评论 -
Paimon对比基于消息队列(如Kafka)的传统实时数仓方案的优势
Paimon作为新一代流式数据湖存储方案,通过主键表原生支持数据去重、聚合更新和统一Schema,有效解决了传统Kafka方案在数据重复、DWS层构建和数据共享方面的痛点。其核心优势包括:1)基于LSM树的主键表实现自动去重;2)支持聚合结果的持续更新,简化DWS层构建;3)提供统一Schema,支持多引擎SQL查询;4)流批一体架构简化系统设计。优化策略围绕性能、存储和稳定性展开,通过异步Compaction、合理分区Bucket设计、TTL管理等方法,实现高效稳定的数据湖仓架构。原创 2025-07-18 10:28:15 · 1319 阅读 · 0 评论 -
数据仓库分层经典架构:ODS、DWD、DWS
数据仓库分层架构中的ODS、DWD、DWS三层模型构成了数据从原始到分析可用的完整处理流程。ODS层作为操作数据存储层,负责从各业务系统原样同步数据;DWD层对ODS数据进行清洗、规范化和关联,形成业务主题明细表;DWS层则基于DWD数据进行聚合汇总,生成面向分析主题的宽表指标。这三层分别承担数据、搬运、清洗整理和预加工的角色,使数据处理流程更清晰高效,既保证数据溯源性又提升分析性能。原创 2025-07-17 22:10:17 · 794 阅读 · 0 评论