国际信号处理、通信、电力和嵌入式系统会议(SCOPES)‐2016
使用仪表板为业务用户处理海量数据的商业智能解决方案
摘要
为了应对关系数据库管理系统(RDBMS)的问题,商业智能应用的新时代已经开启。当数据来自不同源时,无法直接将数据发送到任一目标RDBMS。为解决此问题,商业智能应用应运而生,即通过对不同的模式、平面文件及多种其他源应用ETL(抽取、转换、加载),将数据转换至目标区域。随后,开发并调度相关任务(映射),并对数据进行监控以确保其成功加载至目标区域。最终,通过仪表板页面上的图示表示来展示数据。这些仪表板页面包含饼图、旋转图、水平图、垂直条形图等统计表示,以便首席执行官们评估业务增长情况。
关键词 —商业智能应用, ETL, 映射
I. 引言
许多组织处理实时数据。数据仓库也可称为数据库,用于存储来自异构源的数据。在将数据加载到目标数据仓库的过程中,可以应用过滤器,以将所需数据导入目标数据仓库。在此基础上,可根据业务用户的需求生成报告,并将其放置在仪表板上。作为业务客户的最终用户可以通过比较各个季度的报告来了解业务趋势,并据此对业务做出调整[9]。
A. 不同类型的 数据仓库 是企业级
仓库包含有关流程中涉及的所有主题领域的详细信息。构建此类数据仓库需要更多时间。该仓库中的数据可能是汇总的或详细的,并且需要更多的存储空间。
B. 数据集市
如果分类是基于可用的主题领域进行的,则此类分类称为数据仓库。数据集市有两种不同类型,即依赖型和独立型。独立型数据集市基于主题领域,其维护成本较低,与依赖型仓库相比。依赖型数据集市直接连接到企业仓库。
C. 虚拟仓库
虚拟仓库与关系型数据库中的物化视图类似。与其他仓库相比,构建虚拟仓库所需时间更短,但需要传统数据库服务器具备额外的容量。
D. 数据仓库后端工具和实用程序 [4]
像数据库系统一样,数据仓库系统属于后端软件工具。这些工具的任务是数据抽取,包括从各种源收集数据,并在开发阶段解决相关问题。可以使用不同类型的数据仓库软件来实现转换、分区、清洗和立方体计算等概念[4]。
数据清理和转换在获得所需数据质量方面起着关键作用,进而对数据仓库产生良好的效果[3]。
E. 在线分析处理服务器的类型
混合联机分析处理与多维联机分析处理与关系型联机分析处理[2]联机分析处理服务器用于多维建模。不同类型的OLAP包括:关系型。
F. ROLAP服务器
这些服务器用于优化关系数据库管理系统,充当关系型服务器与客户端前端之间的中介。与多维联机分析处理相比,联机分析处理的关系型具有更高的可扩展性。
G. MOLAP服务器
具有通过压缩技术实现高效数据存储利用率的功能。通过索引概念实现快速数据检索[2]。
H. HOLAP服务器
结合ROLAP和MOLAP,使其在计算速度上更快(MOLAP),并具有高可扩展性(ROLAP)。许多RDBMS供应商提供对模式的高级查询语言。
I. OLAP数据索引 [5]
为了高效地访问数据,应使用索引和物化视图等概念。索引技术有多种类型,包括位图索引、连接索引、聚集索引和非聚集索引。默认情况下,聚集索引会在主键列上创建,而其他索引需要手动创建。
J. 数据仓库实现 [5]
与关系数据库管理系统相比,数据仓库中的数据量更大,因此需要快速处理数据。通过上卷、下钻、切片、切块和旋转等立方体计算来生成详细或汇总的数值,业务分析师需基于这些数值进行商业趋势分析以支持决策[5]。
K. 数据立方体的高效计算
数据分析在构建立方体的高效计算以实现商业趋势分析中起着关键作用。
L. 物化
物化有三种不同的类型,它们是:
- 部分物化
- 不物化
- 完全物化
M. 高效处理OLAP查询
检索时间和存储空间在效率中起着关键作用。
1) 需要在物化立方体上执行的<选择>:成本在选择物化立方体时起着至关重要的作用。
2) 需要执行哪种类型的操作:根据业务流程,您可以在选择、投影和OLAP操作中选择最佳解决方案。
N. 数据仓库的应用
- 数据挖掘
- 信息处理
- 从OLAP到挖掘
II. 现有系统
现有的系统是在线事务处理系统,它不支持对大量数据进行操作,因为数据检索时间会很慢,同时数据无法在仪表板上显示,也无法为管理团队提供决策支持。
A. 在线事务处理系统
数据库或在线事务处理系统用于处理日常事务。数据库存在的原因是保持数据完整性和快速访问数据。数据库中的数据是规范化的。
III. 建议系统
建议系统中的联机事务处理是在线分析处理,支持决策,信息可以通过统计信息查看。
A. 联机分析处理
数据仓库或联机分析处理涉及历史数据,用于在业务环境中进行分析并支持决策。数据可以根据业务需求进行规范化或非规范化处理。星型模式中的数据是规范化的,而雪花模式中的数据是非规范化的。
B. 数据集
1) JDEdwards 数据:包含制造、消费品包装和资产密集型管理等各个数据库的数据。JDE 与财务相关,涵盖财务报告等多个模块。
- 成本会计
- 费用管理
- 总账
- 固定资产会计
- 应付账款
- 应收账款
C. 映射
一个通过使用不同类型的转换将源数据加载到目标区域的区域。所需的数据可以通过被动或主动转换拉取到目标中。
对数据应用抽取、转换和加载的概念。
1) 转换
用户需要的不同类型的数据控制需要不同类型的转换。
a) 主动转换:仅处理行级数据的数据操作语言操作。
- 过滤器
- 排序器
- 连接器
- 排名等
b) 被动转换:处理数据定义语言操作,即数据库对象结构。
- 查找
- 表达式
- 输入等
D. 会话
数据从源发送到目标的时间点取决于会话。要执行会话,我们需要创建一个工作流,根据需求可以在其中运行任意数量的会话。
E. 工作流
工作流可以根据需求进行调度或手动运行。对于需要调度的工作流,需使用调度器来设定任务执行的时间和次数。
数据最终被加载到目标区域。
F. 数据仓库管理控制台
DAC 是一个调度器,用于调度使用抽取、转换和加载开发的工作流(即任务)。
1) 任务执行与队列管理
2) DAC进程生命周期
3) DAC资源库对象层次结构
G. 可视化
需要可视化来轻松理解业务或组织增长的统计信息[8]。
IV. 结果与观察
所观察到的内容描述了Informatics设计器任务窗口,其中包括各种已开发的映射SDE_JDEE1_90_Adaptor、PLP和SILOS。在这三个主要映射中还包含许多子映射。
这三个映射将数据从源移动到目标,即其中一个映射有助于将数据从源移动到暂存区,另一个映射将数据从暂存区移动到目标区域,最后另一个映射包含所有聚合表的信息。
在截图中,右侧显示了从其中一个源到源限定符转换的数据传输过程,同时数据在表达式转换中被修改,最终进入目标[6]。
观察到的现象是,数据最终通过不同类型的转换(如源限定符和表达式转换)加载到暂存区。
注意到的现象是描述Jdee映射会话任务的工作流窗口。只需在会话上右键单击并运行任务即可。
描述 DAC(数据仓库管理控制台)连接窗口。
显示了已开发的不同类型的任务,这些任务按相应顺序排列,并由DAC调度器自动调度运行。这是DAC中的执行计划窗口,其中包含多种选项,如当前运行,它包含当前的运行历史。查询选项显示在Informatics会话中编写的查询。运行历史显示已开发任务的完整运行历史。
历史包括当前正在运行的作业[6]。
Oracle VM VirtualBox 管理软件中的 Oracle Business Intelligence 10g 软件界面。通过单击启动选项卡,obiee10g 软件将运行。
描述了 Oracle 商务智能企业版 启动前 j2ee 服务器加载的过程。最后,在看到关键字 已初始化 后,j2ee 服务器安装完成。看到此信息后,我们需要启动 Java 主机、展示服务器、BI 服务器 和 BI 集群服务器。
显示使用答案概念开发的排名和顶尖用户仪表板。该仪表板包含多个选项卡,我们当前正在查看的是多维 TopN 选项卡。此选项卡分别包含顶级客户。
可以使用不同类型的过滤器来动态查看不同客户的客户信息,也可以通过过滤器[6]按年份或顶级客户信息进行可视化展示。
这些是不同的数据表示方式,包括横向条形图、气泡图、旋转、线状条形图等。
显示以不同图形方式查看数据的类型,即旋转、饼图、线状条形图。
结论
关系数据库管理系统的问题在于,数据仅以表格格式表示。虽然可以使用Excel进行图示表示,但Excel不具备仪表板的概念。由于数据是从不同角度呈现的,通过仪表板,客户可以轻松地直观了解其业务,并根据需要调整业务以增加收入。他们可以按逐日、每月、每季度或每年来可视化其业务,并在不同时间段内比较其增长和收入情况。在统计格式中,通过使用排名系统概念,相应地展示了各个客户的增长情况。最后,通过利用商业智能应用程序得出的这些结果,可以改进决策,从而提升业务绩效。
未来工作
随着数据量日益增长,数据存储在解决各类问题中起着关键作用,应采用Hadoop等技术概念。