一般BI的数据库都是单机的,即便是集群也是oracle、mysql等关系型数据库。ETL工具的处理流程也都是将几个库的数据合并整理到数据仓库里,然后按部分性质分成数据集市,最后再展示。
传统的BI流程可以解决大多数的公司业务,基本处理流程如下:
在大数据的今天,传统的处理流程已经不能满足动不动就多少T的数据,那么分布式计算将填补这一空白:
我们在传统BI处理流程中加入了大数据处理过程,看似简单的增加了一块,却有效的解决了传统BI的对于大数据的不足部分,但是无形中增加了公司的成本,硬件、软件、人员等。因而整个项目的时间都需要重新评估。
传统BI项目耗资巨大,开发周期长。加入大数据分析之后,将BI的整体成本又推向一个高位。