最近在熟悉Oracle旗下一款基于数据可视化、信息探索与分析的工具Endeca,了解完之后觉得它是一款比较好的自助式BI分析工具,并且它能够轻松探索汇集多样化和非结构化数据源,绘制新的洞察力和有意义的结论,使之贯穿整个企业平台的数据探索应用,为企业提供决策支持,提升企业的数据价值,实现业务创新,所以打算把其中的一些后台配置以及实现信息探索分析的流程分享给大家。
技术架构
Integrator:基于可扩展的java SDK建立数据源与Endeca server的API,实现了分词、情感分析以及内容连接。
Endeca Server:能够基于灵活的分面模型整合结构化数据、半结构化数据、非结构化数据,结合统一的多核并行查询能力来支撑上层的交互式探索分析应用。
Studio:全功能组件库,拖拽式配置,操作便捷, 支撑可视化数据探索,可视化数据分析。
注:该图片引用于Oracle Endeca自助式BI
底层程序
Integrator 模块内部的ETL Graph 开发用来加载数据到指定的Endeca数据域中并进行关联、整合,从而支撑后续的可视化数据探索等应用功能,ETL Graph的调度是建立在Endeca Server已开启的基础上才能运行的。
对于其中开发的相关组件可见图形操作开发界面里面的Palette拦。
一个完整的ETL Graph示例如下图所示:
对于各个组件都有各自支持的功能,双击其中的某一个组件都可以在组件内部进行相关的配置,例如:关联规则、衍生指标等。
对于其他一些独特的功能例如:建立搜索请求、加载XML文件等,在各自所依赖的组件内部有封装好的Java函数支撑。
网络工具箱
EID有一个自带的网络工具箱Web Application Toolkit (WAT)可以帮助相关分析人员利用KapowKatalyst Design Studio工具进行robot的配置从而建立一个完整的网上爬取相关资源信息的流程并快速的从互联网上面搜集相关主题的网址、信息概要、新闻内容等,如下图:
建立好流程之后,运行相关robot,如下图所示:
如果需要将所爬取的信息转成一定格式的文本文件,可以在Kapow Katalyst Management Console进行robot的调度:
此控制台可以将相关的结果集转成Excel,进行后续的文本探索分析,并且也打通了内外部数据结合的通道。
可视化信息探索与分析
结构化数据:
EID对于结构化数据分析除了传统的即席查询、固定报表等,还包括多维分析、地图区域分析等,与我之前接触的其他的结构化数据分析应用工具(Cognos、BIEE、BO)相比,EID的操作更便捷、配置也很简单、不依赖相关程序开发、界面清新、可读性强 .
(1)即席查询:
根据EID Studio 的Available Refinements 配置,可以对同一类的度量数据进行任一条件匹配,生成分析人员想要得到的结果集。
如下图:
(2)报表:
EID Studio的 Chart组件可以完成相关报表的配置与展现,根据Chart type、Chart Configuration等组件细项的配置,生成满足分析需求的报表。
如下图:
展现如下:
(3)多维分析:
EID Studio的 Pivot Table组件可以完成多维分析的配置与展现,根据Data Selection、Table Layout、Action Menu等组件细项的配置,生成满足分析需求的数据透视表。EID Studio的 Pivot Table组件可以完成多维分析的配置与展现,根据Data Selection、Table Layout、Action Menu等组件细项的配置,生成满足分析需求的数据透视表。
配置如下:
展现如下:
(4)MAP区域分析:
EID Studio的 Map组件可以完成地图区域分析的配置与展现,根据MapLayers、Layer Type、Points Definition、Details Template等组件细项的配置,生成满足分析需求的地图区域分析,如下图:
非结构化数据:
EID对于非结构化数据的分析主要包括词频统计和同义词配置(白名单)等功能,词频统计配合着EIDSearchBox的关键词搜索能帮助分析人员迅速的从海量的非结构化文本中探索到有价值的信息,白名单的配置可以做细项归类、同义词归并使探索到的信息价值度与准确性更高。
(1)词频统计
EID Studio的 Application Settings的Enrichments可以对文本数据进行词频统计,根据Tag Cload组件的DataSelection、Configuration等组件细项的配置,生成文本数据的词频统计界面。
配置如下图:
展现如下:
(2)同义词配置
EID Studio的 Application Settings的Enrichments可以进行同义词配置,根据Tag Cload组件的DataSelection、Configuration等组件细项的配置,生成文本数据的词频统计界面。
配置如下:
展现如下图:
EID内置的词频统计以及情感分析是基于一个第三方引擎lexalytics来做的,而这个lexalytics对中文似乎并不感冒,这个也无妨可以把它改成中科院的NLPIR就好了。