数据仓库
数仓主要特征
- 面向主题:每个需求和表都属于一个主题,可以用主题来对数仓的表分门别类
- 集成性:将异构数据源,比如MySQL和服务器埋点日志,统一转换成结构化的hive表数据存储到ODS层
- 非易失性:对历史的所有数据的存储需要稳定性,使用非易失的介质(HDFS)来保存
- 时变性:数据会增量增加,数据分析的需求可能会发生变化,分析的过程也会发生调整
区别
数据库和数据仓库的区别
数据库系统作为数据管理的主要手段,主要用于操作型处理
- 操作型处理,也叫联机事务处理OLTP(On-Line Transaction Processing,),也可以称面向交易的处理系统。
- 主要针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改
- 特点是低延迟
数据仓库主要用于分析型处理
- 分析型处理,也叫联机分析处理OLAP(On-Line Analytical Processingÿ