大数据开发-数据仓库介绍

数据仓库是面向分析的集成化数据环境,用于决策支持。它从数据库、日志等来源获取数据,通过ETL或ELT过程处理。区别于数据库,数据仓库侧重分析而非事务处理,具有面向主题、集成性、非易失性和时变性等特点。文章还介绍了美团酒旅数仓建设的实战案例。
摘要由CSDN通过智能技术生成

1、数据仓库

数据仓库Data Warehouse 简称DH,数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持

数据仓库不产生数据 – 数据来自数据库、日志、爬虫等
数据仓库不消费数据 – 分析结果给外部的报表平台等展示

常见的数据源:

  • RDBS关系型数据库-业务数据
  • log file --日志文件
  • 爬虫
  • 其他数据

1.1 数仓为何而来?

答:为了分析数据而来

每天有大量的用户信息产生,如何存储?
要求:处理速度要快,且安全
存放在关系型数据库中—因为事务支持

事务的四大特性:原子性、一致性、隔离性、持久性

but随着业务越来越多,运营如何决策?—需要数据分析
基于业务数据开展数据分析,基于分析结果给决策提供支持
在哪里数据分析?
虽然可以直接在数据库分析,但没必要,因为:

  1. 数据分析也是对数据进行读取操作,会让读取压力倍增
  2. 数据库OLTP仅存储近期的数据
  3. 数据可能分析在不同数据库中,字段类型属性不统一

需要把数据拿过来搭建专门分析的地方—数据仓库出现了
即能进行分析,也可以保证数据不受影响

在这里插入图片描述
OLTP面向事务的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值