数仓ODS层数据分类及同步形式

数据分类

分类说明
业务型数据有较强的业务型及事务性,例如:订单,合同信息等
日志型数据数据量较大,一般不涉及修改,例如:IoT设备数据,埋点日志数据等
三方类数据通过程序,接口,爬虫等获得的非结构化或半结构化数据

各种同步形式总结:

形式说明
全量同步每天删除所有历史数据,从源端拿最新的全部数据
全量历史快照按天做分区,每天的全量数据都存一份。
增量一致同步首次全量同步,增量直接更新。ods层数据和源数据保持一致。
增量变化type(变动类型)、ts(变动时间)、data(当前数据)、old(变动前数据)形式记录
链表开链:当前数据的start_time为最新时间,end_time为9999-12-31,表示当前数据的状态为最新状态。
闭链:将被更新的数据end_time改为当前时间。
### 数据仓库的设计与实现方法 #### 设计原则 数据仓库的分设计是为了提高系统的可维护性和扩展性,同时降低复杂度。通过合理的次划分,能够清晰地定义每一的功能和职责[^1]。 #### 常见分结构 通常情况下,数据仓库分为以下几: 1. **ODS(操作数据存储)** ODS主要用于接收来自源系统的原始数据,并对其进行简单的清洗和转换处理。这一保留了最接近生产环境的数据形态,便于后续更深次的加工[^1]。 2. **DWD(明细数据)** DWD是在ODS基础上进一步规范化后的数据集合。它按照主题域重新组织数据,形成统一的标准字段名以及一致性的编码规则等。此过程可能涉及较多复杂的SQL语句或者脚本程序来完成映射关系建立等工作[^3]。 3. **DWS(轻度汇总/中间)** 在该阶段会对DWD产生的基础事实表做一定维度上的聚合计算得到一些常用的指标值作为下游分析的基础素材提供给应用端调用; 同时也会创建部分宽表方便快速响应特定场景下的查询需求[^3]. 4. **ADS(应用服务/App Layer)** ADS面向最终用户提供报表展示、BI可视化等功能支持。这里会依据具体业务需求定制化生成各种统计报告或KPI监控图表等内容呈现形式多样化满足不同角色人员的信息获取习惯偏好设置等等. 5. **DIM(维度建模)** 维度模型是用来描述事物属性的一组相关联的事实表及其关联维度表共同构成的一个逻辑视图表示法。它可以单独作为一个特殊类型的子存在用于管理公共使用的元数据信息比如时间轴地理区域产品分类客户群体细分标签体系等领域内的标准化定义项列表等. #### 技术实现要点 为了有效地实施上述各级之间的衔接过渡,在实际项目执行过程中还需要注意以下几个方面的关键技术点: - **ETL流程建设**: 需要搭建稳定高效的 ETL 管道用来定期同步增量更新过来的新记录到目标库当中去[^4]. - **分区优化策略**: 对于大规模历史积累下来长期保存的大体量表格对象应该采用合理有效的物理存储布局方式如按日期范围切片分割成多个独立的小文件单元以便加速随机访问定位效率减少不必要的磁盘扫描动作消耗资源成本过高现象发生概率下降显著改善整体性能表现水平达到预期效果标准之上再往上走一步更好一点的话就更加理想完美无缺咯. - **索引机制部署**: 可以为频繁被检索条件过滤匹配的关键列添加适当种类别的辅助查找工具例如B树二级指针链路结构之类的手段措施从而大幅提升命中率缩短延迟等待反馈结果所需耗费的时间长短程度差异明显可见一斑啊朋友们是不是觉得特别棒呢哈哈😊😄😎😏😜😝😛🤑🙄..<br/> 当然啦除了这些常规套路之外我们还可以尝试引入更多高级玩法比如说预计算缓存热点区块内容预先加载入内存缓冲区待命随时准备接受请求即时返回答案无需再次经历漫长繁琐的过程步骤节省大量宝贵光阴精力物力财力人力等各种稀缺有限不可再生的重要战略物资储备呀亲们想想看是不是很划算哦😉👍👏🎉🎊🎁🎈✨💫🌟🔥💥⚡🌈☀️☁️🌧️❄️⛄🌊🎶🎵🎧🎤🎨🎭🎬🎥📺📷📸💡🎯💯🏆🏅🏆🥇🥈🥉🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆🏆 Trophy Case Overloaded! 😎💪 ```sql CREATE TABLE sales ( sale_id INT, product_name VARCHAR(255), amount DECIMAL(10, 2), sale_date DATE ) PARTITION BY RANGE (YEAR(sale_date)) ( PARTITION p_2020 VALUES LESS THAN (2021), PARTITION p_2021 VALUES LESS THAN (2022), -- 更多分区... ); ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值