数据仓库设计需要有以下几个优点:
高效性:公司的数据都是海量的,有时客户需要查询一天内的数据,这就要考验数据仓库的效率了。数据仓库设计的不好,很可能会出现一些问题,如数据会延迟1-3天出数据,这是不行的。
数据质量:数据仓库的流程至少分为3步,2次ETL,复杂的数据架构会带来更多的层次,数据库中脏数据和较差的代码质量,会是数据失真,误导决策者做出结论。
可扩展性:至少要保证三五年的扩展性,要避免出现数据量大很多的时候,数据仓库出现异常,建议多一些中间层来缓冲数据流。
数据仓库为何有意引入冗余
冗余并不是一件坏事,数据仓库是分析数据的,多出重复数据是很正常的。
冗余往往可以提高读取的速度,有一点空间换时间的意思,而现在空间的成本不大。数据仓库全是关联关系,必须关联很多表才能得到一个数据,冗余肯定时间少表的关联,减少关联开销,减少汇总开销。
数据仓库存储的是海量数据,所以对于查询统计时间的敏感度肯定比空间高,所以采用冗余设计是为了提高海量数据的检索速度,这时候空间已经不是瓶颈了。