1、什么是BI?
BI包括很多的软件和服务,用来将数据转变成一些直观的、可执行的信息,支持组织的战略和商业决策。BI通过一系列的工具去处理和分析数据集,并通过图表、报表、报告等形成最终的交付物,为使用者提供详细的智能决策信息。
2、BI和BA有什么区别
Michael F. Gorman为BI下了一个定义,Business intelligence is also called descriptive analytics, in that it describes a past or current state. “It doesn’t tell you what to do; it tells you what was and what is,”
翻译过来的意思就是,BI只会告诉你当前或者过去的状态是什么,但是并不会给你预测和告诉你未来应该做点什么,采取什么行动来解决当前的问题。
与之相对的BA(Business Analytics)则会根据当前的数据进行分析,预测未来会发生什么,或采取行动之后会产生什么后果,BA也被称为advanced analytics。
BI为了帮助企业形成报表,需要大量的企业数据,数据才能让商业智能分析做的更好。实际上商业智能的过程体现在我们的生活中,我们每个月会产生很多的数据,每天的步行数,每天花了多少钱,几点上班的,几点下班的,每天坐在办公桌前的时间有多少等等,所有产生的这些数据都能反映出我们当前或者之前的状态,当你意识到这些产生的数据具有让你了解你当前状况的价值的时候,你一定会去寻找一些工具记录、管理、分析你产生的各种数据。第一个想到的工具可能是excel来记录和管理这些数据,之后还可以进一步通过excel中的各种图表来直观表现我们的分析结果。
上面这个例子的整个过程实际上就是BI的一个缩略过程,BI将我们需要的数据、进行的分析处理通过一个streamline来流程化。
3、BI的流程
BI的流程可以分成三个阶段,资料汇总,资料分析,资料呈现。
图片来自网络
(1)资料汇总
BI需要的数据最开始会存储在一些数据库或者表格中,这些数据可能是同构的也可能是异构的(可能存储在不同的数据库中),这些是我们的原始数据。资料汇总的过程就是将这些原始数据提取出来,进行特定的转换,再加载到操作型数据库和数据仓库中。
(2)资料分析
基于数据仓库中的数据进行数据分析和数据挖掘,同样经过ETL过程导入到Data Mart中,进行下一步的处理。
(3)资料呈现
通过数据可视化的工具将最后的资料呈现,或者使用一些OLAP阶段的软件形成最后的汇总表格和图表。
在这三阶段种,有很多的工具在支撑着整个流程,还有一些相关的重要概念。
(1)ETL
ETL是Extract、Transform、Load的缩写,ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
ETL实际上就和数据库基本上实现的功能是相近的,数据库是对数据进行选择,形成新的数据表输出出来。SELECT选择数据,FROM从表格中选取,WHERE条件是什么。ETL的过程也基本如此,先从数据库或周边系统中获取数据源,这个过程称之为Extract,将提取出的数据进行数据清洗,变成格式统一的数据,这一步骤叫做Transform,最后将清洗好的数据统一加载到需要的地方,这里一般是数据仓库。
主流产品:Informatica PowerCenter、IBM Data Stage
(2)ODS
ODS是Operational Data Store,操作型数据存储,ODS其实并不是一个特定的系统,而是一种数据库架构或设计概念,目的是为企业提供即时的、可操作的数据的集合。ODS的主要特点是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。这是最早期的数据仓库,数据的存储很大部分是按照原始的数据格式来存储的,追求的是响应速度快,即时性好,粒度低、时间跨度比较短,有一个非常明显的时间标签,用来管理历史数据。
(3)OLTP和OLAP
OLTP(on-line transaction processing)联机事务处理,联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLTP | OLAP | |
---|---|---|
用户 | 操作人员,底层管理人员 | 决策人员,高级管理人员 |
功能 | 日常操作处理 | 分析决策 |
DB设计 | 面向应用 | 面向主题 |
数据 | 当前的,新的,细节的,二维的,分立的 | 历史的,聚集的,多维集成的,统一的 |
存取 | 读写数十上百条数据 | 读百万级数据 |
DB大小 | 100MB~~GB | 100GB~~TB |
时间要求 | 实时性 | 对时间的要求不严格 |
主要应用 | 数据库 | 数据残酷 |
OLAP与OLTP的区别如上表所示,上表已经较为详细地说明了OLAP和OLTP。
知名的OLAP产品:Power BI、ineBI、Tableau、IBM Cognos
(4)Data Warehouse
数据仓库,保存的是数据在不同时间点的状态,对同一个数据信息,保留不同时间点的状态,便于我们做统计分析。
数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指事务处理系统OLTP(On-Line Transactional Processing)所得来的数据。将这些整合过的数据置放于数据库中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓库最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓库的重点。综上所述,数据仓库应该具有这些数据:整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。
数据仓库与ODS的关系可以理解成多对一的关系,ODS种的多个表格可以经过清洗、汇总形成数据仓库中的数据,下图是一个简单的实例。
从数据库到ODS再到DW过程中,BI的数据在此时大体上到达了顶峰,很多OLAP的分析基于数据仓库的建立开始进行。
知名的数据仓库产品: IBM InfoSphere Warehouse、Microsoft SQL Server Fast Track、Sybase IQ、TeraData
(5)Data Mart--数据集市
Data Mart开始转向特定的部门或个人,针对他们的不同主题,从数据仓库中选取必要的数据,形成更少的数据,相对比于数据仓库他们还是有一些区别的。
数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
以上就是BI的相关定义、工具、流程的简单介绍,希望大家都能理解BI的概念,如果从事BI相关的工作能更好的理解BI是什么,并且有兴趣的可以深入研究,如何选定一个合适项目的BI模型。