商务智能(第五版)(赵卫东)——第二章 商务智能系统架构

第二章 商务智能系统架构

2.1 商务智能系统的组成

在这里插入图片描述


1. 数据源与数据提取

数据是商务智能系统的基础,通常包括企业内部数据和外部数据(来自市场研究公司或Internet 等):

  • 内部数据包括企业各种应用系统、办公自动化系统等产生的业务数据、文等;
  • 外部数据包括有关市场、竞争对手的数据以及各类外部统计数据等。

这些数据可能是结构化的,如关系表和电子数据表(spreadsheet)等;也可能是非结构化的,如平面文件图像等多媒体数据,需要借助**企业信息集成(enterprise information integration,EII)**的技术整合才能用于业务的全面分析。业务数据需要经过数据评价、数据筛选以及数据抽取(extrat)、转换(transform)和装载 (load),即经过 ETL 后才可存储在数据库中,为数据的分析奠定了基础。


2. 数据仓库

数据仓库是一个面向主题、集成、时态、非易失性的数据集合,支持企业决策活动,包括元数据经过ETL的业务数据

元数据是关于数据的数据,包括数据源、抽取规则、转换规则、加载频率和数据仓库模型等信息。数据源中的数据按照元数据库的规则,经过抽取、清理、转换、集成,按照决策主题重新组织、存储。

数据集市是数据仓库的一个子集,但含有特定的主题,一般只在某个部门或局部范围内使用。一些数据仓库系统还带有操作型数据存储(ODS)。

内存计算技术是近年来的一种新兴技术,它可以将大量的业务数据直接导入内存,并以列存储方式存储,分析也直接在内存中进行,以提高大数据量的业务分析速度。


3. 访问工具

访问工具包括应用接口中间件服务器。数据库中间件允许用户透明地访问数据仓库服务器,用于即席查询(ad-hoc query)、在线分析处理和数据挖掘。

中间件服务器是连接数据仓库和访问工具之间的桥梁,它提供了一组标准的API和工具,使用户可以通过常见的查询和报表工具访问数据仓库中的数据。这些API和工具包括ODBC(开放式数据库连接)、OLE DB(对象链接和嵌入)、JDBC(Java数据库连接)、ADO.NET(ActiveX数据对象)、XMLA(XML for Analysis)等。中间件服务器还可以提供查询优化、安全性管理、缓存管理和负载均衡等功能,以提高数据仓库系统的性能和可靠性。


4. 决策支持工具

决策支持工具包括即席查询、报表、在线分析处理和数据挖掘等多种组成部分,这些工具可以对数据进行不同层次的加工和分析,以支持决策制定。

  • 即席查询和报表可以方便用户获取需要的数据并按一定的方式显示出来,支持对数据进行简单的分析和总结。

  • 在线分析处理则支持用户进行多维数据分析和查询,以发现更深层次的业务趋势。而数据挖掘则是对数据的深层次加工,通过从大量数据中提取隐藏的、有用的知识,为决策制定提供支持。

不同的工具可以在不同的决策情境下发挥作用,帮助用户做出更准确、更有针对性的决策。

  • 报表工具是商务智能系统的基础之一,具备封装各种数据集的功能,支持在报表绘制过程中灵活定义 SQL检索、存储过程复杂 SQL、Text 文件XML 文件以及自定义等不同类型的数据集。

成熟的报表具有先进的前端展现功能,可以无缝输出至 PDF、Excel 等常用文件中,实现动态形象地展现数据,对企业业务进行汇总、分析,真实地反映公司业务的状况。

在这里插入图片描述


常见的报表软件
除了 Excel等常用的报表工具外,目前市场上比较流行的国外报表软件还有 BusinessObjects(SAP)的水晶报表(Crystal Reports)以及 Cognos(IBM)等。


5.商务智能应用

商务智能应用,如利润成本分析资产分析营销分析投资组合分析以及人力资源管理顾客关系管理供应链管理等各种业务的分析都是根据各级决策者的需求,从数据仓库中提相关的数据,然后确定数据分析的方法,并把分析结果通过前端展示工具提供给决策者问。


6. 系统管理

系统管理包括系统安全管理(用户身份验证和权限管理)、元数据的管理与更新**、数据仓库的日常维护与监控数据使用审计容量规划等。


7. 元素局管理

元数据管理包括对开发、管理数据仓库时所用的技术元数据和支持业务人员的业务元数据进行管理,它对数据仓库的设计和维护起着重要作用。


2.2 数据集成

在信息化过程中,企业面临着各种来自不同业务部门、不同数据来源的数据,这些数据格式、质量等方面存在差异,导致数据孤岛的形成,使企业无法有效地利用数据资源进行决策分析。因此,数据集成成为了解决这一问题的重要手段。

在数据集成过程中,需要进行数据源识别数据提取数据转换数据加载等步骤。对于不同的数据源和数据格式,可以采用不同的数据集成方式,包括手动数据集成、ETL工具和数据集成平台等。手动数据集成需要手动编写代码进行数据转换和加载,相对较为繁琐;ETL工具可以通过可视化界面和预设的转换规则,快速进行数据集成,适用于数据量较大的情况;数据集成平台可以通过自动化的方式实现数据集成,支持多种数据源和数据格式,适用于需要频繁进行数据集成和数据分析的场景。

同时,数据集成也面临着一些挑战,例如数据质量问题、数据格式不一致、数据安全等问题。为了解决这些问题,需要采用一些数据清洗数据整合数据安全措施,从而确保数据集成的准确性和安全性。


在企业数据集成领域,已经有很多成熟的方法可以使用。目前通常采用数据联邦(federation)基于中间件模型数据仓库和**主数据管理(master data management,MDM)**等方法来构造集成的系统。

  • 数据联邦是指将分布在不同数据源中的数据集成起来,形成一个虚拟的数据库,可以通过统一的接口进行查询和访问。这种方法可以避免数据复制和冗余,降低数据集成的成本和复杂度。

  • 基于中间件模型的数据集成方法是指通过中间件将不同数据源的数据进行转换和集成,形成一个统一的数据视图,方便用户进行查询和分析。这种方法可以提高数据集成的灵活性和可扩展性,同时也可以减少数据冗余。

  • 数据仓库是指将企业中不同业务系统中的数据进行抽取、转换和加载,形成一个面向主题的、统一的数据仓库,用于支持企业的决策分析和业务运营。数据仓库一般采用ETL工具进行数据集成和转换,可以提高数据的质量和一致性,同时也方便企业进行数据分析和报表生成。

  • 主数据管理是指对企业中关键的数据实体(如产品、客户、供应商等)进行标准化和管理,确保这些数据实体在不同业务系统中的数据一致性和准确性。主数据管理可以避免数据冗余和数据不一致,提高数据的可信度和准确性。


HomeAboutDesignlol.netAdmin ARCHIVED ENTRIES FOR 数据可视化 九 27 前言:数据可视化是怎样创造出来的。可视化 Tags: 数据可视化, 信息可视化 13 Comments » 我多次被炫目的数据可视化或信息可视化震惊,在我知道这些图片背后的数据来源和创造历程后,更是为之诧异不止。它涉足制图学、图形绘制设计、计算机视觉、数据采集、统计学、图解技术、数型结合以及动画、立体渲染、用户交互等。相关领域有影像学、视知觉。空间分析、科学建模等。 这是创造性设计美学和严谨的工程科学的卓越产物。用极美丽的形式呈现可能非常沉闷繁冗的数据,其表现和创作过程完全可以称之为艺术。所以我翻译了来自SM上的3篇数据可视化和信息图形的文章,主要是鉴赏并提供一些参考资料。我尽量查找了每张数据图表背后的背景,添加了标注和说明,希望那个帮助读者更深入地理解这些图表所呈现的含义,而不仅仅是停留于对“好看”的赞叹上。这些图片不会说话,但它们比文字和语言都更为有力。 数据可视化 Data Visualization 和信息可视化 Infographics 是两个相近的专业领域名词。狭义上的数字可视化指的是讲数据用统计图表方式呈现,而信息图形(信息可视化)则是将非数字的信息进行可视化。前者用于传递信息,后者用于表现抽象或复杂的概念、技术和信息。 而广义上的数据可视化则是数据可视化、信息可视化以及科学可视化等等多个领域的统称。 数据可视化起源于1960s计算机图形学,人们使用计算机创建图形图表,可视化提取出来的数据,将数据的各种属性和变量呈现出来。随着计算机硬件的发展,人们创建更复杂规模更大的数字模型,发展了数据采集设备和数据保存设备。同理也需要更高级的计算机图形学技术及方法来创建这些规模庞大的数据集。随着数据可视化平台的拓展,应用领域的增加,表现形式的不断变化,以及增加了诸如实时动态效果、用户交互使用等,数据可视化像所有新兴概念一样边界不断扩大。 而我们熟悉的那些饼图、直方图、散点图、柱状图等,是最原始的统计图表,它们是数据可视化的最基础和常见应用。作为一种统计学工具,用于创建一条快速认识数据集的捷径,并成为一种令人信服的沟通手段。传达存在于数据中的基本信息。所以我们可以在大量PPT、报表、方案以及新闻见到统计图形。 但最原始统计图表只能呈现基本的信息,发现数据之中的结构,可视化定量的数据结果。 面对复杂或大规模异型数据集,比如商业分析、财务报表、人口状况分布、媒体效果反馈、用户行为数据等,数据可视化面临处理的状况会复杂得多。 可能要经历包括数据采集、 数据分析、数据治理、数据管理、数据挖掘在内的一系列复杂数据处理,然后由设计师设计一种表现形式,是立体的、二维的、动态的、实时的还是允许交互的。然后由工程师创建对应的可视化算法及技术实现手段。包括建模方法、处理大规模数据的体系架构、交互技术、放大缩小方法等。动画工程师考虑表面材质、动画渲染方法等,交互设计师也会介入进行用户交互行为模式的设计。 所以一个数据可视化作品或项目的创建,需要多领域专业人士的协同工作才能取得成功。人类能够操纵和解释如此来源多样、错综复杂跨领域的信息,其本身就是一门艺术。 数据可视化在发展过程中,科学和工程领域的应用衍生出了分支:科学可视化——“利用计算机图形学来创建视觉图像,帮助人们理解科学技术概念或结果的那些错综复杂而又往往规模庞大的数字表现形式”。 在计算机诞生之前,科学的可视化行为就存在。如等高线图、磁力线图、天像图等等。利用计算机的强大运算能力,人类可以使用三维或四维的方式表现液体流型、分子动力学的复杂科学模型。 比如利用经验数据,科学可视化在天体物理学(模拟宇宙爆炸等)、地理学(模拟温室效应)、气象学(龙卷风或大气平流)模拟人类肉眼无法观察或记录的自然现象;利用医学数据(核磁共振或CT)研究和诊断人体;或者在建筑领域、城市规划领域或高端工业产品的研发过程中发挥重大重用。比如汽车的研发过程中,需要输入大量结构和材料数据,模拟汽车在受到撞击时如何变形。在城市道路规划的设计过程中,需要模拟交通流量。 虽然科学可视化的表现形式对于普通人比较陌生,像粒子系统、散点图、热力图等图表不接受专业训练很难看懂。但实际上科学可视化的成果已经渗透到我们生活的每个角落。 90年代初期,信息可视化领域进入人们的视野。用于解决对异质性数据中“抽象”的部分的分析。帮助人们理解和观察抽象概念,放大了人类的认知能力。 科学可视化和信息可视化的差别比较微妙,因为科学可视化的大部分处理对象都是抽象的概念。在手段和技术上也有大量共同之处。所以边界比较模糊。 在国外,许多大型企业、科研机构都会有相关部门进行数据可视化研究,如数字图书馆。媒体和政府机构也会对自己掌握的数据进行可视化分析,如犯罪地图。在互联网上,那些掌握了大量用户活动信息、用户关系网或语料库的网站,比如digg,friendfeed,flickr或大型电子商务网站等,都有实验性的可视化项目。可惜在中国在这方面的商用或实验项目还是比较空白的。 数据可视化的开发和大部分项目开发一样,也是根据需求来根据数据维度或属性进行筛选,根据目的和用户群选用表现方式。同一份数据可以可视化成多种看起来截然不同的形式。 有的可视化目标是为了观测、跟踪数据,所以就要强调实时性、变化、运算能力,可能就会生成一份不停变化、可读性强的图表。 有的为了分析数据,所以要强调数据的呈现度、可能会生成一份可以检索、交互式的图表 有的为了发现数据之间的潜在关联,可能会生成分布式的多维的图表。 有的为了帮助普通用户或商业用户快速理解数据的含义或变化,会利用漂亮的颜色、动画创建生动、明了,具有吸引力的图表。 还有的图表可以被用于教育、宣传或政治,被制作成海报、课件,出现在街头、广告手持、杂志和集会上。这类图表拥有强大的说服力,使用强烈的对比、置换等手段,可以创造出极具冲击力自指人心的图像。在国外许多媒体会根据新闻主题或数据,雇用设计师来创建可视化图表对新闻主题进行辅助。 说了那么多,大家都可以感受到数据可视化所应用价值,其多样性和表现力吸引了许多从业者,而其创作过程中的每一环节都有强大的专业背景支持。无论是动态还是静态的可视化图形,都为我们搭建了新的桥梁,让我们能洞察世界的究竟、发现形形色色的关系,感受每时每刻围绕在我们身边的信息变化,还能让我们理解其他形式下不易发掘的事物。 我通过翻译这系列的文章,为数据可视化的创造力所折服,也为其所能诞生和发展的背景环境所感叹。希望国内能有更多的跨领域人才的教育背景,能有发展实验性项目的环境,设计师们能拥有更多的创造力和专业素养,永远保持好奇心和敏感。 数据可视化相关的引擎/程序/工具(来自wiki百科) Instantatlas Data Desk DAVIX Eye-Sys Ferret Data Visualization and Analysis GGobi IBM OpenDX IDL (programming language) Style Intelligence OpenLink AJAX Toolkit ParaView Smile (software) StatSoft Visifire VisIt VTK Yoix Prefuse 信息可视化的相关方法 Cladogram (phylogeny) 分支图 Color alphabet 色彩字母表 Dendrogram (classification) 树状图 Information visualization referen
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值