数据仓库设计问题

数据仓库设计需要有以下几个优点:

高效性:公司的数据都是海量的,有时客户需要查询一天内的数据,这就要考验数据仓库的效率了。数据仓库设计的不好,很可能会出现一些问题,如数据会延迟1-3天出数据,这是不行的。

数据质量:数据仓库的流程至少分为3步,2次ETL,复杂的数据架构会带来更多的层次,数据库中脏数据和较差的代码质量,会是数据失真,误导决策者做出结论。

可扩展性:至少要保证三五年的扩展性,要避免出现数据量大很多的时候,数据仓库出现异常,建议多一些中间层来缓冲数据流。

 

数据仓库为何有意引入冗余

冗余并不是一件坏事,数据仓库是分析数据的,多出重复数据是很正常的。

冗余往往可以提高读取的速度,有一点空间换时间的意思,而现在空间的成本不大。数据仓库全是关联关系,必须关联很多表才能得到一个数据,冗余肯定时间少表的关联,减少关联开销,减少汇总开销。

数据仓库存储的是海量数据,所以对于查询统计时间的敏感度肯定比空间高,所以采用冗余设计是为了提高海量数据的检索速度,这时候空间已经不是瓶颈了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值