浅浅谈谈BI与大数据

要谈大数据,其实是离不开BI的,我想先谈谈我所接触过的BI。我接触BI的第一款产品所属SAP,主要分为BW数据仓库和BO报表组件。首先,BW作为企业级数据仓库是专门针对业务数据做抽取的,这样的好处是避免分析人员直接对业务系统进行数据的查询,读取和写入。另一方面,通过ETL把各业务模块清洗过和整合过的数据存放在数据仓库;再按不同的业务维度构建多维数据模型cube;最后利用BO组件以cube为基础输出报表,从而为业务人员提供分析,参考和决策。综上所述,我把这类BI项目定义传统BI项目,数据来源基于企业内部,这类数据多以结构化数据存在。传统BI的项目主旨是把企业内部现有的数据进行有效整合,快速输出报表,继而帮助企业的经营决策提供参考依据。

    我曾经认为,实施过传统的BI项目就等同于实施的大数据项目。随着认知升级,我才发现原来之前所做的是关于数据采集和整合,因为没有接触到数据的分析和应用环节。事实上,作为曾经在联想任职BI工程师的我来说,所能提供的输出的是数据集成和数据质量。至于分析和应用并不属于BI工程师的范畴,也超出了知识的范畴,毕竟只有业务人员才能洞悉数据的价值。

    随着这段时间的思考,我发现传统BI和大数据,看似类似。但其实有很大本质的区别。

    首先,传统BI不是一个简单的在线分析工具,从业务流程的梳理规划,到技术的实施部署,它更多体现的是一种企业的管理思维。其次,这些报表所提供信息是历史事实的描述,可以理解是一种历史数据的展示,通常是帮助决策者宏观的统计经营指标。但挖掘潜在的价值靠的不是机器,是业务人员。再者,BI的技术流一般都是ETL+DW+OLAP+Report,而数据来源大多数是企业内部业务系统,以结构化数据为主。这种技术流的形式解决不了海量数据的处理(10TB以上),也没有办法处理非结构化数据。

    至于大数据,目前对大数据的定义各说纷纭,不能说谁对谁错,毕竟实践出来的才是能真章的。如果非要对大数据有个定义的话,我个人比较偏向这个定义是:”大数据是从海量数据中寻找数据的相关性,潜伏的规律,隐藏在数据背后的蛛丝马迹。是一种发现,猜测,印证的一种循环逼近的过程。”而它的数据来源不再局限于企业的内部数据,对于企业的外部数据,特别是线上的数据的价值也开始受到关注。企业大数据应用的四个环节包括数据采集,数据整合,数据分析,数据应用。咋一看好像跟BI项目的环节一样,但其实背后所体现的实施方法论是完全不一样的。如果把企业大数据应用的四个环节再细分一下,其实是,数据采集,数据处理,数据聚合,数据匹配,数据分析,数据挖掘,数据应用及数据反馈。

    传统的BI人员只要懂得SQL技术,就能上手开发整个BI项目生命周期内的大部分环节。但是大数据所涉及的技术就多了去了,根据不同的大数据处理的场景,可以组合出不同的技术栈。例如,需要懂得处理爬虫工具;懂得利用自然语言处理文本信息;懂得在集群计算平台上部署机器学习算法,等等。所以大数据对于传统BI不是单纯简单的加法,更是一种技术和思想的变革。

    传统BI人员若要转型大数据领域,想要深度掌握所有技术是不太现实的,建议可以宏观的了解主流的技术栈,继而深入具体的某个具体的技术环节作落地。更重要的是需要针对行业建立大数据的思维。随着各种大数据的技术工具不断的更新迭代,怎么与具体细分的行业进行深层次的结合才是有所价值的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值