从数据仓库到商业智能

 

 

 

商业智能(Busines lnteligence)简称BI通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。

伴随数据库技术的提高和数据处理技术的发展以及各行业业务自动化的实现,商业领域产生了大量的业务数据,要从这海量数据中提取出真正有价值的信息,将数据转化为知识,以支持商业决策,需要用到能提取、存储有用信息,支持决策的数据仓库(DW)、联机分析处理(OLAP)工具和数据挖掘(DM)等技术。因此,从技术层面上讲,商业智能不是什么新技术,它是DWOLAPDM等技术的综合运用。

商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换和装载,即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理.这时信息变为辅助决策的知识,最后将知识呈现给管理者,为管理者的决策过程提供支持(1)。目前,商业智能产品及解决方案大致可分为数据仓库产品、数据抽取产品、OLAP产品、展示产品、和集成以上几种产品的针对某个应用的整体解决方案等。

1 商业智能与企业信息化系统的关系

商业智能作为一种企业信息集成解决方案,为企业不同的应用系统,如企业资源规划(BRP)、客户关系管理(CRM)、供应链管理(SCM)以及外部环境扫描等系统之间架起了互通的桥梁。同时,这些信息化系统也为商业智能提供了数据源,离开了它们,商业智能就会成为无源之水,无本之木。但商业智能的价值又在这些系统之上,因为它可以发现数据背后隐藏的商机或威胁,获得洞察力,了解企业和市场的现状,把握趋势,识别异常情况,理解企业业务的推动力量.认清正在对企业的业务产生影响的行为及影响程度如何等。

2 商业智能的实施

用户不仅要选择合适的商业智能软件工具,还必须按照正确的实施方法才能保证商业智能项目得以成功,项目的实施步骤可分为:

2.1需求分析

在其他活动开展之前必须明确的定义企业对商业智能的期望和需求,包括需要分析的主题,各主题可能查看的维度,即需要发现企业哪些方面的规律。

2.2 数据仓库建模

通过对企业需求的分析,建立企业数据仓库的逻辑模型和物理模型,并规划系统的应用架构,将企业各类数据按照分析主题进行组织和归类。

2.3 数据抽取

数据仓库建立后必须将数据从业务系统中抽取到数据仓库中,首先将来自运营、财务、CRM等不同数据源的不同类型数据采用数据整合平台进行抽取、净化、转换和装装载,形成可以被系统识别的统一数据格式,导人数据仓库存放。

2.4 建立分析报表

商业智能分析报表是数据仓库信息的展现,根据客户户的不同需求,利用多种展现工具,可以将存放在数据仓库中的历史数据进行展现和挖掘,生成报表,或者生成展现图表,进行分类和聚类,进行多维度检索等。无论是企业的高层管理者,还是普通的业务人员,都可以根据展现出来的数据或者挖掘出来的关联信息,辅助自己做出下一步的生产营销决策。

2.5 数据测试与系统改进

要使系统成功交付使用,最终用户的培训与软件测试是关键的环节,可以找出系统的不足,以更好地适应实际应用。在用户使用一段时间后可能会提出更多的,更具体的要求,这时需要再按照上述步骤对系统进行重构或完善。

BI实施的各步骤中,DW是基础,OLAP技术用于数据报表的生成,而DM技术用于产生支持决策的信息,从此也体现出Bl是上述多种技术的综合应用与体现。图1充分说明了这一点。

3 商业智能具有的功能

BI产品和方案必须建立在稳定、整合的平台上,该平平台需要提供用户管理、安全性控制、连接数据源以及访问、分析和共享信息的功能。

3.1 关联分析功能

关联分析主要用于发现不同事件之间的关联性,即一一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是,事件发生的概率和条件概率应该符合一定的统计意义。例如,一个开设储蓄账户的客户很可能同时进行债券交易和股票交易。利用这种知识可以采取积极的营销策略,扩展客户购买的产品范围,吸引更多的客户。

3.2 监视功能

预先设置条件,使符合条件的数据以一定形式显示出来,这样可以使问题一目了然。例如:上季度营业额少于万元的分店显示出来,以引起管理人员的注意。

3.3 记录选择功能

可以从大量数据中选取需要的数据,重新构成一个数据环境,可以使用户关注的数据集中显示出来。

3.4 程序调用功能

把通过按钮查找抽取出的数据,传给其他的软件或用户原有的程序,并执行这些程序。

3.5 展示功能

BI要有查找、统计、排序等功能,并将结果以一定的的形式展示给用户,以支持用户进行多方面的数据分析和决策。

3.6 数据输出功能

打印统计列表和图表画面等,可将统计分析好的数据输出给其他的应用程序使用,或者以HTML格式保存。

数据仓库技术是为了解决拥有大量业务数据的企业能及时有效地提取经营管理决策所需要的信息而产生的,如何有效地组织大量的数据,维护数据的一致性,方便用户的访问,这只是数据仓库技术的一个方面。另一个重要方面是如何为决策人员有效地使用信息提供方便,使他们能通过使用数据仓库系统对企业的经营管理做出正确的决策,从而为企业带来经济效益。然而,数据仓库中的大部分信息是不易浏览的。要使数据仓库为最终用户的决策支持提供数据,就要借助OLAP技术,通过 OLAP技术,利用数据的多维视图,用户能多角度、多侧面、多层次地考察数据库中的数据,从而深人地了解包含在数据中的信息及其内涵。

OLAP为数据仓库提供了快速浏览、分析,若要智能化且主动地把这些数据转变为有用的信息和知识,离不开日益受到重视的数据挖掘技术。数据挖掘又称数据库中的知识发现(KDD),是指从存放在数据库、数据仓库或其他信息库中的大量数据中自动地发现相关模式、提取有潜在价值的信息、挖掘知识的过程。从CRM 的角度,数据挖掘应用就是从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,并能够根据已有的信息对未来发生行为做出结果预测,为企业经营决策、市场策划提供依据。在CRM中应用的数据挖掘模式主要有以下五种:关联分析、分类、聚类分析、序列分析、孤立点分析。对于要挖掘的数据,可以是来自传统的关系数据库,也可以建立面向主题的、采用多维数据立方体组织数据的数据仓库。

数据挖掘经过确定业务对象、数据准备、建立模型、验证模型、数据挖掘、结果分析等步骤,不仅完成了对历史数据的分析,以及不同客户群体的消费数据的分析,而且将这些数据知识化,以预测企业在未来将要发生的状况,从而提高企业的收益能力和决策能力。如,商家可以在分析市场销售数据的基础上选择潜在的顾客,以便向他们推销产品,减少了开展业务的盲目性。可以通过数据挖掘技术,发现有欺诈倾向的用户,避免企业受到损失。

商业智能使用户能够认清趋势、获取洞察力和得出结论,随着用户对历史数据查询的复杂性和快速响应的需求,以及企业提高决策能力和竞争能力的需要,商业智能一定会成为许多行业的投资热点,并得到进一步的普及和发展.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
第1章 为什么学习R语言 1 1.1 R是什么 2 1.1.1 R是yi款悠秀的现代科研 软件 2 1.1.2 R的优势与不足 3 1.1.3 R和Python的区别 3 1.2 计算社会科学的兴起——以计算 传播学为例 4 1.2.1 什么是计算社会科学 4 1.2.2 计算传播学的起源和概念 7 1.3 R在计算传播学中的典型应用 9 1.3.1 用R进行文本分析初探 9 1.3.2 互联网在线数据收集 10 1.3.3 社会网络分析 12 1.4 总结与提高 13 1.5 习题 14 第2章 R语言开发环境 15 2.1 R的获取、安装和基本使用 16 2.1.1 RGui的下载与安装 16 2.1.2 RGui的使用介绍 19 2.1.3 示例:使用R Commander实现 统计功能 21 2.1.4 R的内置数据集和扩展 功能包 26 2.1.5 R的帮助系统 27 2.1.6 R的工作空间和工作目录 27 2.2 R的IDE开发环境——RStudio 27 2.2.1 RStudio的下载和安装 28 2.2.2 RStudio的zui简标准操作 28 2.2.3 RStudio的工作界面 31 2.2.4 RStudio的用户自定义配置 32 2.3 示例:我的diyi个R项目 “网页爬虫” 32 2.3.1 组织项目需求 33 2.3.2 新建项目环境 33 2.3.3 编写应用程序代码并运行 34 2.3.4 执行代码并根据实际结果修改 和再次运行 35 2.4 总结与提高 37 2.5 习题 38 第3章 R语言基础——数据 39 3.1 无障碍学习编程语言的两个 诀窍 40 3.1.1 从“哲学”的角度了解编程 语言 40 3.1.2 从“语言学”的角度学习编程 语言语法 41 3.2 R的基本数据类型(数值、字符、 逻辑) 42 3.2.1 基本数据类型 42 3.2.2 数据类型的两个属性:模式和 长度 43 3.2.3 两个特殊常量 44 3.3 R的复合数据类型 45 3.3.1 向量 46 3.3.2 矩阵 46 3.3.3 数组 47 3.3.4 数据框 48 3.3.5 列表 49 3.3.6 因子 51 3.3.7 时间序列 52 3.4 数据的导入和导出 54 3.4.1 数据的导入 55 3.4.2 数据的导出 59 3.5 总结与提高 59 3.6 习题 59 第4章 R语言基础——代码 61 4.1 R代码的基本单位:语句= 数据 运算符; 62 4.1.1 基本运算符 62 4.1.2 表达式、语句、语句块 65 4.2 R的流程控制 66 4.2.1 顺序结构 66 4.2.2 选择/分支结构 67 4.2.3 循环结构 70 4.3 R代码复用——函数和过程 73 4.3.1 “模块化”编程思想与函数 73 4.3.2 函数的定义与调用 75 4.3.3 过程的定义与调用 76 4.4 总结与提高 77 4.5 习题 77 第5章 R绘图——数据可视化呈现 79 5.1 概述 80 5.2 R的绘图函数 81 5.2.1 图形窗口绘图操作函数(图形的 创建和保存) 82 5.2.2 R图形参数 83 5.2.3 高级绘图函数 86 5.2.4 低级绘图函数 89 5.3 常用的R可视化功能包 91 5.3.1 ggplot2功能包 91 5.3.2 rCharts功能包 93 5.3.3 plotly功能包 95 5.3.4 map功能包 96 5.4 总结与提高 97 5.5 习题 98 第6章 网络数据程序化采集 99 6.1 网络数据的获取途径及相关 基础知识 100 6.1.1 Web数据的获取途径 100 6.1.2 Web的结构与原理 101 6.2 使用R收集Web数据 106 6.2.1 获取静态Web内容 107 6.2.2 网络数据的应用级API采集 (以豆瓣为例) 109 6.2.3 获取动态Web内容 111 6.3 总结与提高 114 6.4 习题 114 第7章 文本挖掘和情感分析 115 7.1 R环境下的文本挖掘 116 7.1.1 中文分词 117 7.1.2 分词包jiebaR的使用 118 7.1.3 词云包wordcloud2的使用 127 7.2 情感分析 129 7.2.1 情感分析概述 129 7.2.2 情感分析的简单实现 131 7.3 总结与提高 133 7.4 习题 133 第8章 社会网络分析 135 8.1 网络社会与社会网络分析 136 8.1.1 社会的构成 136 8.1.2 网络社会与社会网络分析 137 8.1.3 现代网络社会与社会网络 分析 140 8.1.4 网络与关系的描述 142 8.2 社会网络分析的发展、意义 和步骤 143 8.2.1 社会网络分析的三个方向 143 8.2.2 社会网络分析的几个主要 步骤 144 8.2.3 社会网络分析的几个重要 指标 144 8.3 社会网络分析的常用工具 146 8.3.1 NodeXL的使用 146 8.3.2 R的iGraph功能包 147 8.3.3 UCINET 149 8.4 总结与提高 149 8.5 习题 150 第9章 社交编程平台:GitHub 151 9.1 自己架设PHP实验站点并深入 探索RCurl功能包 152 9.1.1 基于PHP网页服务器端技术 架设网站实验环境 152 9.1.2 深入探索RCurl包 157 9.2 挖掘和分析社交编程平台GitHub的 信息 162 9.2.1 GitHub的基本使用 162 9.2.2 探索GitHub API 165 9.3 总结与提高 175 9.4 习题 175 附录 177 附录1 计算社会科学宣言 177 附录2 计算传播学:宣言与版图 182 附录3 服务器版RStudio的安装与 配置(基于Ubuntu14.04) 191 附录4 RStudio的常用快捷键 192 附录5 使用devtools包从GitHub 中安装R包 196 附录6 使用Rtools自制R扩展 软件包 197 参考文献 203

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值