数据仓库存储的数据特点:
要具有充分的灵活性,以适应各类用户的查询和分析
同时要保证高性能,越快越好。
灵活性和性能总是有矛盾。
数据集市特点:
为了解决灵活性和性能之间的矛盾,数据集市存储为特等用户需求而预先计算好的数据,满足用户对性能的要求
数据集市快速解决某些具体问题,投资规模小
优点:
规模小,灵活
投资小,投资回收期短,风险小
独立数据集市的构建比较快
物理平台独立
分布式数据仓库
缺点:
共享少、重复劳动、重复分析
多个集市独立实施,成本增加
增加了对数据源的压力
信息局限于部门,不含企业视图
数据集市的建立:
商业目标:来源于用户,“为销售和市场不能提供销售信息”
信息:数据源、ETL、元数据
基础设施:硬件、软件、技术架构
定义:小型的部门级别的数据仓库,面向部门级或是某个特定主题(满足特定用户的需求)
分为独立型和从属型
开发方法:
1、从属型数据集市
自上而下
数据一致性好
建立数据仓库成本高
2、独立型数据集市
自下而上
数据再抽取的代价高
3、折中方法:
从整个企业的角度来计划和定义需求
为整个数据仓库建立结构体系
使数据内容一致而且标准化
将数据仓库作为一组数据集市来实施,每次一个
(这组数据集市具备统一的数据类型、字段长度、精度和语义;此时数据集市是整个数据仓库的逻辑子集)
数据集市与数据仓库的区别
范围:企业级;部门级
主题:企业主题;部门或特殊的分析主题
数据粒度:最细的粒度;较粗的粒度
历史数据:大量的历史数据;适度的历史数据
优化:处理海量数据、数据探索;便于访问和分析、快速查询