数据仓库实战

最新推荐文章于 2023-12-26 00:55:00 发布

海星？海欣！

最新推荐文章于 2023-12-26 00:55:00 发布

阅读量2.9k

点赞数 2

分类专栏： # 大数据-数据仓库文章标签：数据仓库数据挖掘数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sun123234/article/details/129014357

版权

大数据-数据仓库专栏收录该内容

5 篇文章 2 订阅

订阅专栏

目录

1、最佳实战

1.1 表的分类

维度建模中表的类型：事实表和维度表
事实表又可以分为：事务事实表、周期快照事实表、累积快照事实表

事实表：一般指现实存在的业务对象，比如用户、商品、商家、销售员等
在这里插入图片描述
维度表：对应一些业务状态，代码的解释表，也称为码表
通常使用维度对事实表中的数据进行统计、聚合运算

事务事实表：随着业务不断产生的数据、一旦产生不会再变化，如交易流水、操作日志、出库入库记录
在这里插入图片描述
周期快照事实表：随着业务周期型的推进而变化，完成间隔周期内的度量统计，如年、季度累计
使用周期+状态度量的组合，如年累计订单数，年是周期，订单总数是量度
分析压力大

累积快照事实表：记录不确定周期的度量统计，完全覆盖一个事实的生命周期，如订单状态表
多个时间字段，用于记录生命周期中的关键时间点
一条记录，对此记录不断更新

在这里插入图片描述
一条事件只有一个记录

累积快照事实表的实现：
实现方式一：使用日期分区表，全量数据记录
存储大量永远不更新的冷数据，对性能影响较大，适用数据量小的情况

实现方式二：存储周期内数据，周期外的冷数据存储到归档表

实现方式三：-使用最多且最好的
使用日期分区表，以业务实体的结束时间分区，每天的分区存放当天结束的数据，设计一个时间非常大的分区，如9999-12-31，存放截止当前未结束的数据

拉链表：记录每条信息的生命周期，用于保留数据的所以历史状态
拉链表将表数据的随机修改方式，变为顺序追加

在这里插入图片描述
金额300.5的那个信息，上表中结束日期9999-99-99，说明此状态未结束，下表，日期改为了2020-01-03，说明状态已结束，且新增了一条记录，已支付状态，结束日期也是9999-99-99

1.2 ETL策略

两种：全量同步，增量同步

全量同步：
数据初始化装载一定使用全量同步的方式

增量同步：
传统数据整合方案中，大多采用merge方式（update +insert）
大数据平台不支持update操作，可采用全外连接+数据全量覆盖方式

1.3 任务调度

为什么需要任务调度？

解决任务单元间的依赖关系
自动化完成任务的定时执行

在这里插入图片描述
常见任务类型？
shell、java程序、Mapreduce程序、SQL脚本

常见调度工具？
Azkaban、Oozie

2、项目实战

2.1 项目概述

背景：
某电商企业，因数据积存、分析需要，筹划搭建数据仓库，提供数据分析访问接口
项目一期需要完成数仓建设，并完成用户复购率的分析计算，支持业务查询需求

复购率：
指在一段时间间隔内，多次重复购买产品的用户，占全部人数的比率

在这里插入图片描述

2.2 数据描述

在这里插入图片描述

2.3 架构设计

在这里插入图片描述
一开始，业务数据存放在Mysql中

2.4 环境搭建

在这里插入图片描述
虚拟机搭建 - Xshell - 脚本准备 - 集群按照

2.5 项目开发

在这里插入图片描述
1，业务数据生成：

2，ETL数据导入
后面看不懂了。。。
原视频课程

海星？海欣！

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
数据仓库实战

数据仓库实战
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。