数据仓库
文章平均质量分 77
小白鸽
啥都会一点,啥都不精的半吊子程序员
展开
-
【实时数仓架构】方法论
实时数仓架构体系方法论原创 2024-04-28 17:28:18 · 781 阅读 · 0 评论 -
【数据治理】方法论
数据治理是一种组织内部的规范体系,通过组织内各相关方的治理协同,以实现数据资源治理、数据成本治理、数据质量治理、数据稳定性治理,从而保障组织内低成本、高治理的数据资产管理和使用,进而赋能组织业务策略和目标。原创 2024-04-20 20:19:22 · 850 阅读 · 0 评论 -
【数据分层】方法论
一般标准数据架构有(ODS、DWD、DWS、DIM、ADS)。OneData方法论提供了具体的实施途:1.需求调研、2.数据域划分、3.构建总线矩阵、4.明确统计指标、5.模型设计(规范定义/明细模型设计/汇总模型设计)、6.代码开发、7.部署运营。原创 2024-03-29 11:11:54 · 307 阅读 · 0 评论 -
【画像标签】方法论
本文简单概述用户画像建模方法论。原创 2024-04-02 23:10:28 · 174 阅读 · 0 评论 -
数据建模理论
经常变化口径,并需要回刷数据的业务中间层,可设计基础中间层+视图业务中间层的方式解决。:为了查询方便,事实表会冗余多个字段,若为了冗余字段导致调度启动太晚,可以拆分快慢表。:依赖多个主表,且每个主表时间差异太大,可拆二级分区,二级前置节点。:所有表,必须考虑是否设置逻辑主键,理论上所有表都存在逻辑主键。:主要针对事实表,大约100E条以上的事实表,设计增量。1.数据架构域与在线应用架构域大部分能够实现映射。:设计维度、度量、中间层时,保持口径一致。:常见维度属性,冗余到事实表、维表。原创 2024-03-30 09:36:29 · 356 阅读 · 0 评论 -
实时数据开发
笔者并没有专业的实时数仓的开发经验,只是从别人那和网上资料综合整理而来,仅供参考。实时数据开发步骤:1、需求分析;2、确定Source、Sink、Dim;3、任务创建;4、任务开发和修改;5、参数与资源配置;6、任务发布;7、任务运维。原创 2024-04-12 19:13:13 · 293 阅读 · 0 评论 -
数据治理(二)-基线治理
Mapjoin/Auto Mapjoin参数不合理。Map/Join/Reduce参数不合理。ServiceMode参数不合理。小fuxi instance治理。超大merge任务治理。logview异常耗时处理。被高频访问的adm视图治理。D2/DG互通链路治理。D2/DG的DQC治理。高频预警/破线治理。性能差的自定义函数治理。Owner离职/转岗。原创 2024-04-10 22:23:08 · 349 阅读 · 0 评论 -
数据治理(一)-平台治理
1.待治理成本2.浪费量:可以优化计算或者存储3.累计浪费量:发现时距离今天数*当日浪费量4.节省成本:完成治理成本5.白名单管理成本。原创 2024-03-31 23:04:50 · 282 阅读 · 0 评论