现在数据仓库技术大热,大数据,云平台也到处鼓吹。说简单一点,数据仓库和BI的架构就几个步骤,模型开发(也就是数据仓库的结构设计),ETL,数据展现。如果非要扯上cube,多维度分析,上钻下钻,倒是可以把数据库中的表这样去划分,基本一张宽表,几张维度表搞定。,我在国内和国外的企业都有个相关工作经验,总结来说,客户关注的东西不是这个技术有多复杂,有多NB,他们在乎的能实现什么,自己能获得什么。所以谁规定维度在数据仓库里,必须只有雪花和星型的,我还屌丝型类。这没必要,也不好理解,我们要把事情的本质实现,而不是穿上“皇帝的新装”。
下面是我认为的关于数据仓库的几点需要纠正的地方。
1.数据仓库是面向主题,什么是主题,理解主题就要先知道应用,这两个概念是很模糊的,某种角度上看,主题就是应用,只是用户群体不一样而已,如果非要去划分,是可以这么说,但这种东西一定是板上钉钉的东西吗?何况,作为数据仓库的开发人员,我做的就是BI产品的应用,不是嘛。
2.数据需要提前汇总,去实现上钻下钻的功能吗?我的答案是:肯定需要,但不是所有都需要这么处理。不要被cube,多维分析,MDX等给搞混了,这方面实际应用很少,也很容易用其他方式实现,数据肯定是有粒度的,一个仓库的粒度可以是不一样的,传统的一天一周期的数据转化,已经不新鲜了,当前很多公司特别是金融行业特别需要real time(或者叫做intraday)的分析,这个是当前的一个技术难点。
3.成熟BI产品和自定义的BI产品的优略势,显而易见,有钱当然用成熟的东西(不包括BAT等企业,这些家伙喜欢自己搞一套,虽说人生苦短,但他们加班成风,精力过剩也没办法)
个人认为传统的数据库在数据仓库领域的优势会越来越小,但不至于灭完,像以前oracle一招吃遍天下的时代已经不在了,未来的数据库方面肯定是往分布式发展,期待一个强大的分布式数据库问世。话说阿里搞了ODPS,还有RDS等,让人不明觉厉,但问了下阿里的同学,原来那玩意也是稀烂啊,不然你认为他们加班那么多都干嘛,办公室玩三国杀嘛!
下面是我认为的关于数据仓库的几点需要纠正的地方。
1.数据仓库是面向主题,什么是主题,理解主题就要先知道应用,这两个概念是很模糊的,某种角度上看,主题就是应用,只是用户群体不一样而已,如果非要去划分,是可以这么说,但这种东西一定是板上钉钉的东西吗?何况,作为数据仓库的开发人员,我做的就是BI产品的应用,不是嘛。
2.数据需要提前汇总,去实现上钻下钻的功能吗?我的答案是:肯定需要,但不是所有都需要这么处理。不要被cube,多维分析,MDX等给搞混了,这方面实际应用很少,也很容易用其他方式实现,数据肯定是有粒度的,一个仓库的粒度可以是不一样的,传统的一天一周期的数据转化,已经不新鲜了,当前很多公司特别是金融行业特别需要real time(或者叫做intraday)的分析,这个是当前的一个技术难点。
3.成熟BI产品和自定义的BI产品的优略势,显而易见,有钱当然用成熟的东西(不包括BAT等企业,这些家伙喜欢自己搞一套,虽说人生苦短,但他们加班成风,精力过剩也没办法)
个人认为传统的数据库在数据仓库领域的优势会越来越小,但不至于灭完,像以前oracle一招吃遍天下的时代已经不在了,未来的数据库方面肯定是往分布式发展,期待一个强大的分布式数据库问世。话说阿里搞了ODPS,还有RDS等,让人不明觉厉,但问了下阿里的同学,原来那玩意也是稀烂啊,不然你认为他们加班那么多都干嘛,办公室玩三国杀嘛!
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26149628/viewspace-1309424/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/26149628/viewspace-1309424/