数据仓库数据挖掘——数据仓库与数据集市的关系

数据仓库存储的数据特点:

    要具有充分的灵活性,以适应各类用户的查询和分析

    同时要保证高性能,越快越好。

    灵活性和性能总是有矛盾。

数据集市特点:

    为了解决灵活性和性能之间的矛盾,数据集市存储为特等用户需求而预先计算好的数据,满足用户对性能的要求

    数据集市快速解决某些具体问题,投资规模小

优点:

规模小,灵活
投资小,投资回收期短,风险小
独立数据集市的构建比较快
物理平台独立
分布式数据仓库

缺点:

共享少、重复劳动、重复分析
多个集市独立实施,成本增加
增加了对数据源的压力
信息局限于部门,不含企业视图


数据集市的建立:

商业目标:来源于用户,“为销售和市场不能提供销售信息”

信息:数据源、ETL、元数据

基础设施:硬件、软件、技术架构


定义:小型的部门级别的数据仓库,面向部门级或是某个特定主题(满足特定用户的需求)

分为独立型和从属型


开发方法:

1、从属型数据集市
自上而下
数据一致性好
建立数据仓库成本高

2、独立型数据集市
自下而上
数据再抽取的代价高

3、折中方法:

从整个企业的角度来计划和定义需求
为整个数据仓库建立结构体系
使数据内容一致而且标准化
将数据仓库作为一组数据集市来实施,每次一个
   (这组数据集市具备统一的数据类型、字段长度、精度和语义;此时数据集市是整个数据仓库的逻辑子集)


数据集市与数据仓库的区别

范围:企业级;部门级
主题:企业主题;部门或特殊的分析主题
数据粒度:最细的粒度;较粗的粒度
历史数据:大量的历史数据;适度的历史数据
优化:处理海量数据、数据探索;便于访问和分析、快速查询


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值