商业智能之数据处理
摘要:近几年, 随着商业信息化技术的发展, 企业在长期发展中积累了大量的业务数据, 这些业务数据中存在较大的商业价值信息, 在如今激烈的市场竞争下必须对这些业务数据进行数据挖掘分析, 提取有用价值信息, 为企业销售提供参考依据, 促进企业经济效益的提高。在科学技术的推动下, 一种基于商业智能的并行数据挖掘技术被广泛应用于数据分析中, 能够提高数据挖掘效率, 改善企业经营现状。随着商业信息化技术的发展, 企业在长期发展中积累了大量的业务数据, 这些业务数据中存在较大的商业价值信息, 在如今激烈的市场竞争下必须对这些业务数据进行数据挖掘分析, 提取有用价值信息, 为企业销售提供参考依据, 促进企业经济效益的提高。在科学技术的推动下, 一种基于商业智能的并行数据挖掘技术被广泛应用于数据分析中, 能够提高数据挖掘效率, 改善企业经营现状。
关键词:商业智能;OLAP;数据挖掘
1、研究背景
伴随着大量数据的持续增长, 代表着大数据时代的应运而生, 这也使得人们对数据越来越感兴趣并进行充分的研究与利用, 对于数据的分析与提取, 数据挖掘技术成为新一代技术的典型代表。在商业营销领域, 二维码、条形码技术的频繁应用形成了大批量的数据。从销售层面上来讲, 可以通过对数据的分析来挖出用户所倾向的购物行为, 从而使得商家针对性的促销商品并提高自己的竞争力[1]。在个人信誉测评方面, 目前很多银行或企业通过数据分析的软件, 定期的对个人的信誉度进行检查来判定其否有良好的信誉, 从而决定是否可以为其贷款。数据挖掘技术还被应用于识别用户访问资源的行为上, 主要来判别用户否为合法用户, 进行诈骗甄别主要是利用总结出的正常行为和异常行为之间的关系, 得出行为的相关特征, 可以对一些不法行为直接进行拦截或屏蔽。在这种背景下数据战备意义显得尤为重要, 因此, 大数据时代下对于数据挖掘[2]问题的研究具有积极的意义。
2、历史发展
1865年,理查德·米勒·德文斯在《商业趣闻百科全书》中提出了“商业智能”(BI)一词。1958年,IBM计算机科学家汉斯·彼得·卢恩撰文讨论了利用技术来收集商业智能的潜力。1970年,埃德加·科德发表文章,改变了人们思考数据库的方式。他关于建立“关联式数据库模型”的提议获得了巨大关注,被全世界所采纳。
决策支持系统(DSS)是第一个数据库管理系统。上世纪80年代,商业人士发现了商业智能的价值,于是BI供应商的数量大增。那期间,各种各样的工具纷纷面世,目标是以更简单的方式访问和组织数据。联机分析处理(OLAP)、主管信息系统(EIS)和数据仓库应运而生,与DSS协同工作。
OLAP:OLAP让用户可以分析多来源数据,并提供多个范式或视角。OLAP的数据库采用多维数据模型,支持复杂分析和即席查询。它的标准应用包括:销售业务报告、营销、管理报告、业务流程管理(BPM)、预算编制和预测、财务报告和类似领域、新应用。作为基于SQL的程序,OLAP在NoSQL流行起来后,就渐渐失势。(现在,Kyvos Insights、Platfora和AtScale等公司把OLAP叠加到NoSQL库之上。)OLAP支持合并、下钻、切片和切丁三个基本操作。
EIS:上世纪70年代末EIS诞生,为高管提供决策方面的支持。EIS旨在提供“简化”决策过程所需的适当和最新信息,强调以图表和易用界面的方式,来呈现这些信息。EIS的目标是让高管自己处理邮件、进行研究、作出任命和阅读报告,而不是通过中间人接收这些信息。
数据仓库:上世纪80年代,企业开始经常使用内部数据分析解决方案,因此数据仓库开始流行。数据仓库大幅缩短了访问数据所需的时间。通常储存在多个地方(往往是部门筒仓)的数据,现在可以储存在同一个地方。
商业智能迈向高科技:1988年,在罗马举行的多路数据分析大会结束后不久,商业智能开始作为一个技术概念出现。在这场大会上得出的结论促使人们开始简化BI分析,并使之对用户更加友好。BI企业大量涌现,每家新公司都提供新的BI工具。在那个时期,BI有两项基本功能:产生数据和提供报告,并以适当的方式组织和呈现数据。20世纪末、21世纪初,BI服务开始提供简化的工具,降低决策者对工具的依赖度。这些工具更易于使用,而且提供所需的功能,非常有效。商业人士可以通过直接与数据打交道的方式,收集数据,获取洞见。
商业智能VS数据分析:目前,商业智能和数据分析常常被混用。这两个术语都描述了在商业决策过程中使用数据的普遍实践。商业智能代表了为决策者提供辅助的一系列技术,而数据分析则代表了处理数据的一系列工具,并且作为一个统称,涵盖了数据仓库、企业信息管理、商业智能、企业绩效管理和企业治理。
描述性分析:描述性分析是指描述和总结数据,主要聚焦历史信息,通过描述过去,帮助用户了解以前的行为如何影响现在。描述性分析能用来解释企业如何运作,描述业务的不同方面。
预测性分析:预测性分析能预测未来,它利用统计数据,为企业提供关于未来变化的有用信息。其商业用途通常包括,预测销售增长速度、消费者可能购买哪些产品,以及预测库存总量。
规定性分析:规定性分析是一个相对较新的领域,应用难度还比较大。它会“规定”几个不同的可能行为,引导人们找到解决方案。这类分析的核心在于提供建议。从本质上说,规定性分析会预测今后可能出现的多种情况,并让企业根据他们的行为,对可能出现的多种结果进行评估。
流分析:流分析是一个实时过程,不断计算、监测和管理基于数据的统计信息,并根据这些信息,“先于竞争对手”采取行动。作为一种新的工具,流分析大幅改善了提供给决策者的有用信息流。用于流分析的数据可以有多种来源,包括手机、物联网、市场数据、交易和移动设备(平板电脑和笔记本电脑)。它能迅速有效地将管理人员和外部数据源联系起来,让应用程序把数据并入一个应用流,或者用处理后的信息更新外部数据库。
3、现状分析
企业为了确定经营战略和市场战略所进行的经营活动,在分析决策过程(BI项目)中,需要基于多种报告和报表进行分析。理想的市场活动展开,大多需要各个营业点的销售报表,每种商品按季节销售的业绩图表等,这就势必需要大量准确的并且易于判断的数据。这些数据所形成数据表和图表就是我们所说的报表,在 业中更是需要有效利用这样的报表进行分析决策活动。
然而,对于作为使用者的一般员工或者IT部门员工来说,是一个很大的工作量负担。因为数据的分析需要先获得必要的数据信息,这就必须预先知道数据采集和数据加工计算的方法。当然,还有必要掌握数据库构成和数据存取语言的一些专门的知识。 因此这些工作以前全都是经由IT部门人员用OLAP产品来完成的。信息管理部门要根据用户的要求把报表格式设计好,然后根据用户的目的开发出应用程序以及建立数据库等来完成这项工作。
一个OLAP模型中,度量数据和维数据我们应该实现确定,一旦两者确定下来,那么我们可以对数据进行预先的处理,在正式发布之前,将数据根据维进行最大限度的聚类运算,运算中会考虑到各种维组合情况,运算结果将生成一个数据CUBE,并保存在服务器上。这样,当最终用户在调阅这个分析模型的时候,就可以直接使用这个CUBE,在此基础上根据用户的维选择和维组合进行复运算,从而达到实时响应的这么一个效果。
从以上OLAP三点基本概念,我们可以在实践中发现问题的所在,OLAP概念没有错,用户也没有错!!错在目前业内的OLAP产品的设计思路上,从目前的OLAP产品来看,由于“多维角度”变化的由来是来自于用户部门,而IT部门采用的OLAP产品使“多维角度”转化成数据库设计了,但是为了实现“CUBE运算”,使“度量数据”和“维数据”需要提前固化,这样限制了业务部门对“多维角度”快速变化的要求。这样使BI项目变成了日常统计报表项目,使OLAP分析变得无法实现。
OLAP产品需要改变---新一代OLAP工具
新一代OLAP工具设计的思想,不应该关注报表工具本身功能(排版、统计、图形、计算等等),应该是IT部门不要来制作报表,仅关注OLAP的功能,不需要做OLAP的报表展现,报表完全由业务部门来实现!!!主要基于以下2点:
1, 从桌面报表的使用能力和使用量来描述,业务部门的人员已经远远超过IT部门的人员,因此,IT部门目前不太可能提供出一个报表工具来取代业务部门使用的桌面报表工具。
2, 报表本身的含义需要业务部门的精湛的业务知识来诠释,而如果报表由IT部门来制作的话,会出现知识传递过程中的误差,因此,这是目前OLAP实施中最大的问题。
基于以上2点,新一代OLAP工具设计思想就是如何使OLAP工具和Excel报表工具能够无缝交流,应该有一个“分析角度”的技术来实现业务部门和IT部门对“多维角度”的各自表述。让业务部门自己来做“分析角度”,自己来做报表,让IT部门利用OLAP概念来设计基础数据。
4、趋向预测
2019年BI系统需要关注的主要趋势
《未来一年BI解决方案的可见性趋势列表》年终出炉。或许所有企业使用者在他们偏爱的BI平台上渴求改进的全新功能,都可以在来年有如下预期:
首席数据官:探究2018年及未来的6大商业智能发展趋势,我们将发现,到2019年底,90%的大企业都将拥有首席数据官,这个人将在推动企业的数据分析文化中发挥关键作用。
自助服务:Gartner认为,到2019年,用户采用自助分析进行的数据科学活动,将比数据科学家产出更多的业务分析价值。
新的数据治理举措:2017年数据泄露事件频繁发生,使得更严格的DG政策和法规成为必要。缺乏数据保护将为企业带来巨大损害,因此,通过遵守通用数据保护法规(GDPR)等法规实现数据治理,将是BI解决方案供应商在2019年的首要任务。
专注于主数据和数据质量:数据质量为BI的成功操作提供了重要基础,因此BI解决方案供应商专注于提供增强功能来管理其系统上的主数据和数据质量。2019年,客户将能够从包含主数据的单个统一数据库(而不是多个断开连接的数据库)监控和管理数据质量。
迁移上云:Gartner预测,到2021年,大多数企业都会将其数据活动的重要部分(包括高级分析)迁移到云端,这种趋势正在逐步展开。观远数据目前支持云部署模式,为企业降低了内部基础设计拥有和维护成本。在2019年,用户当然可以期待更多的云应用。
自助式BI:自助式BI的目标是实现数据应用的大众化,并确保业务分析能真正实现为企业基层人员带来增益。在观远智能BI平台中,无论用户处于什么职位,他们都可以直接访问并借助这个工具创建所需报告,希望这一趋势也能够减轻内部IT人员的负担。
增强型BI:自助式BI平台的普遍使用,让用户可以在2019年进一步使用增强性的分析工具。比如观远数据借助人工智能和机器学习带来更为先进的生产力,从而极大程度改善用户体验。得益于这些先进的BI工具,由于数据科学家数量短缺带来的影响也变得不那么明显了。
高级数据发现工具:高管们时常发现,完全依赖富有经验的数据科学家来处理日常业务显然不太现实。幸运的是,具有高级数据发现和可视化功能的新BI系统将消除在匆忙的决策会议期间需要数据科学家的窘迫状况。2019年,这个功能将会从在公司董事会内部迅速发展的趋势继续扩展到下属各个管理层。
5、总结与展望
商业智能(BusinessIntelligence)这个名词在国内似乎是近些年才慢慢走入企业经营者的视野,然而事实上在国外它已经有几十年的历史了。这个可以一直追溯到1958年,当时,HPLuhn在IBMResearchJournal上发表了一篇名为“ABusinessIntelligenceSystem”的文章,其对商业智能的阐述为:Theabilitytoapprehendtheinterrelationshipsofpresentedfactsinsuchawayastoguideactiontowardsadesiredgoal。直译来说,就是商业智能具有理解既有事实之间相互关系的能力,从而指导朝着期望目标而采取的行动。
20世纪70年代和80年代,决策支持系统(DecisionSupportSystems)和执行信息系统(ExecutiveInformationSystems)发展流行。1989年,商业智能迎来一个重要的里程碑,时任Gartner公司分析师的HowardDresner重新定义了商业智能的概念,他认为:商业智能是一种使用基于事实的支持系统来改进业务决策的概念和方法。这个期间,商业智能完成的大部分工作都集中在技术,标准,流程和工具层面上,具体体现在可支持数据采集,存储规范化和检索以及报表创建等。与此同时,数据仓库,数据集市,数据字典以及提取,转换,加载(ETL)流程变得无处不在,因此这一阶段也被视为将数据转换为信息和使用信息来帮助推动(主要是可操作的)决策的开始。
商业智能的发展主要呈现两个趋势:专业化和集成化。专业化体现在商业智能系统更加强调行业的特点,如同ERP的发展一样,整体笼统的概念已经不能适合现在企业发展的需求,分行业的解决方案将越来越受到企业的青睐。商业智能在银行、保险、制造和电信行业已经得到不同程度的发展。集成化是商业智能的另一个趋势。ERP、CRM、电子商务、SCM和企业门户等都将商业智能纳人其中,可见商业智能系统将逐步同更多的应用系统紧密结合起来。
计算机技术及其应用的智能化正在逐渐地应用在各行各业,商业智能是企业信息处理技术发展的必然趋势,商业智能系统的发展得益于计算机技术、人工智能技术和数据处理技术的发展。商业智能系统和企业日常事务处理系统一起服务于商业事务,不同的是日常事务处理服务于操作型员工,而商业智能系统服务对象是企业决策层和管理层人员。这两种系统都是企业竞争和发展的必备条件,可以预见未来的商业社会是依赖于信息和时间的社会,谁抢占到先机,他就定然会得到更大的成功机会。
商业智能研究存在的问题。数据仓库的数据存储类型还受到一定的限制,数据仓库的扩展性能还需要进一步加强;数据挖掘在标准化和通用性方面存在一系列问题,数据挖掘引擎与数据库系统还是松散耦合的;数据挖掘语言有待于向标准化方向发展等;目前,OLAP还是一种传统决策支持方法,是一种用户驱动的验证性分析,受到用户水平的制约,使其作用没有得到充分发挥。目前大多数BI系统功能集中在分析方面,对系统的智能性不够重视,决策支持功能主要还是依赖数据挖掘、OLAP等工具的数据分析、趋势预测功能来实现,不具备专门的决策支持系统提供方案生成、方案协调,方案评估的功能,更不具备群体决策和智能决策的能力,也就是说BI的智能化水平还很低。
商务智能是继ERP后最具发展潜力的信息技术之一。它整合企业整个价值链的数据,并搜索企业外部的数据,进行联机分析处理和数据挖掘,得出对企业生存发展具有指导意义的决策知识和智慧,以企业信息门户的形式提供给用户。商务智能的发展前景是成为企业记忆系统的一部分。未来商务智能的研究应更加关注两个方面:一是前期数据准备方面研究,为商务智能打下坚实数据基础;另一方面是商务智能与当今前沿技术如云计算、社交网络等结合的研究。
参考文献
[1]宋丹,黄旭 . 信息科技视角下商业智能的发展现状、 趋势及创新应用 [J]. 科技创新与应用,2016(23)
[2]王惠敏 . 大数据背景下电子商务的价值创造与模式 创新 [J]. 商业经济研究,2015(7)版
[3]有趣的数据 . 2019数据分析与商业智能趋势前瞻
[4]商业智能及其核心技术 余长慧,潘和平
[5]商业智能_BI_系统发展趋势分析 王云超
[6]商业智能及其应用的研究与发展 韩清池
[7] Marc G.A Foundation for Multi-dimensional Databases.In Proc.of VLDB, 1997:106-115
[8] Agrawal R, Gupta A, Sarawagi S.Modeling Multi-dimensional Databases.IBM Research Report, IBM Almaden Research Center, 1995- 09
[9] Li C, Wang X S.A Data Model for Supporting On-line Analytical processing.In Proceedings Conference on Information and Knowledege Management, 1996:8188
[10] Gyssens M, Lakshmanan L V S, Subramanian I N.Tables as a Paradigm for Querying and Restructuring.ACMPODS, 1996:93-103
[11] 裴 健, 唐世渭, 杨冬青等.联机分析处理数据立方体代数.软件学报, 1999, 10 (6) :561-569
[12] 李建中, 高 宏.一种数据仓库的多维数据模型.软件学报, 2000, 11 (7) : 908-917
[17]戴罩洋.浅谈临床医疗信息数据挖掘[J].中国农村卫生事业管理, 2009, 29 (6) :470-471.
[18]屈景辉, 廖琪梅, 许卫中, 等.医学信息数据库的建立与数据挖掘[J].第四军医大学学报, 2001, 22 (1) :88-89.
[19]汪菊琴.医学数据挖掘综述[J].电脑知识与技术, 2011, 7 (15) :3496.
[20]周爱华, 郑应平, 王令群.医学数据挖掘综述[J].中华医学实践杂志, 2005, 4 (2) :126-128.