大数据相关概念

数据库的三范式

第一范式(1NF):原子性,字段不可分
第二范式(2NF):唯一性,有主键,非主键字段依赖主键
第三范式(3NF):非主键字段不能相互依赖

实体关系模型(E-R图)

实体,属性,关系
1.抽象实体 2.找出实体之间的关系 3.找出实体的属性 4.画出ER关系图 5.设计数据库表

为什么要构建数据仓库?

1.数据存储在互不兼容的系统中
2.关系型数据库一般不存储日志数据
3.决策者需要从商业角度观察数据,关系型数据库不合适
  • 杂乱的数据进行规整,方便数据的分析与数据价值的挖掘

数据仓库(Data Warehouse - DW - DWH)

数据仓库是面向主题的,集成的相对稳定的,反应历史变化的数据集合,数据仓库中的数据是有组织有结构的存储数据集合,用于对管理决策过程的支持.

数据分析模型

星型模型,雪花模型
1.星型模型违范式建模,雪花模型范式建模
2.星型模型数据分析效率比雪花模型高
3.企业级数仓构建使用星型模型和星座模型居多

数据仓库分层设计

按照业务处理逻辑顺序:资源(source)->操作数据层(ODS-Operational Data Store)->数据仓库(DW-Data Warehouse)->数据集市层(Data Mart)
  • 资源:初步的数据
  • 操作数据层(ODS层):直接存放业务系统抽取过来的数据,将不同业务系统中的数据汇聚在一起
  • 数据仓库(DW层):细分为数据明细层(DWD-Data Warehouse Detail)->数据中间层(DWM-Data Warehouse Middle)->数据服务层(DWS-Data Warehouse Service)
    • 数据明细层:保证数据质量,在ODS的基础上对数据进行加工处理,提供更干净的数据
    • 数据中间层:对通用的维度进行轻度聚合操作,计算相应的统计指标,方便复用
    • 数据服务层:按照主题业务组织主题宽表,用于OLAP分析
  • 数据集市层(DM):基于DW上的基础数据,整合汇总成分析某一个主题域的报表数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q3m9X9kf-1657620429172)(D:\Typora\image\image-20220708223942980.png)]

数据仓库分层的好处

  1. 清晰的数据结构
  2. 减少重复开发
  3. 统一数据出口
  4. 简化问题

数据库与数据仓库的区别

功能数据库数据仓库
数据范围当前状态数据存储完整,反应历史变化的数据
数据变化支持频繁的增删改查可增加,查询,无更新,删除操作
应用场景面向业务交易流程面向分析,侧重决策分析
处理数据量频繁,小批次,高并发非频繁,大批量,高吞吐,有延迟
设计理论遵循数据库三范式,避免冗余违范式,适当冗余
建模方式ER实体关系建模(范式建模)范式建模+维度建模

大数据架构演变

Lambda架构的缺点:1.同样需求需要开发两套一样的代码

2.集群资源使用增多
3.离线结果和实时结果不一致
4.批量计算T+1可能计算不完
5.服务器存储大

Kappa架构缺点:1.kafka无法支撑海量数据存储

2.Kafka无法支持高效的OLAP
3.无法复用数据血缘管理体系
4.Kafka不支持update/upsert

湖仓一体实时数仓架构解决的问题:

1.存储统一
2.Kafka存储量小问题
3.任意分层都可以OLAP数据分析
4.复用同一套相同的血缘关系
5.实时数据更新

2.Kafka存储量小问题

3.任意分层都可以OLAP数据分析
4.复用同一套相同的血缘关系
5.实时数据更新
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值