概念
ETL(extract、transform、load) :数据仓库技术
宽表和窄表:
- 宽表不符合数据库设计范式
- 包含大量冗余字段,便于数据挖掘
- 窄表严格符合数据库设计范式
- 没有冗余,修改一个数据涉及多张表
SLA:服务级别协议
跨库连表方案
把一部分 ETL 放到流式计算/Spark 中,节省在线查询复杂度
- 表 1、表 2、表 3 -> 内存连表查询
- 内存需求较大
- 支持数据量有限
- 无法支持多数据源
- 对 Where 条件、分页能力有限
- 表 i -> 镜像 i,再到 DB 引擎 Join
- 数据量过大、表过多,会对引擎带来较大压力
- 支持连表大数据量的数据库价格较贵
- 表 i -> 镜像 i,再到 ETL 流程合并 -> 宽表查询
- 支持大数据量和多数据源类型,数据以流的形式给出,对在线引擎造成压力较小
- 不读原表,不对原表造成读压力
- 系统复杂,有一定的数据延迟,需要维护成本
- 表 1、表 2、表 3 -> 图引擎
- 原始数据构成点和边,进行查询
- 正向 edge 过多会造成查询慢的问题
- 原始数据构成点和边,进行查询