国防信息资源数据仓库管理与数据挖掘系统

国防信息资源数据仓库管理与数据挖掘系统

为推动国防建设现代化,尽快实现数字化国防体系,在过去的20多年里,我军建立了各种各类的信息管理系统,指挥自动化系统等,形成了大量的管理信息数据和军事作战指挥数据,以及还有大量急需数据化的信息,比如国防动员信息。对这些现有的或即将产生的数据采用商业智能的方法,通过数据仓库、数据挖掘、联机分析处理技术,形成对数据的有效利用和决策支持系统。使我军的现代化、信息化建设迈向一个新的阶段,因此,对国防信息资源数据仓库管理与数据挖掘系统的研究与开发变的十分迫切。西安电子科技大学软件学院具有多年从事数据仓库和数据挖掘方面的研究和开发经验,又能紧密结合我军信息化建设的需求,为解决针对国防信息资源数据仓库管理与数据挖掘系统的研究与开发,从以下三个方面给出我们的分析与解决方案。

一、对数据仓库、数据挖掘、OLAP的研究现状

 数据仓库是商业智能的基础,许多基本报表可以由此生成,但它更大的用处是作为进一步分析的数据源。所谓数据仓库(DW)就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。多维分析和数据挖掘是最常听到的例子,数据仓库能供给它们所需要的、整齐一致的数据。

在线分析处理(OLAP)技术则帮助分析人员、管理人员从多种角度把从原始数据中转化出来、能够真正为用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软件技术。

数据挖掘(DM)是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。

数据仓库和OLAP90年代初提出的概念,到90年代中期已经形成潮流。在美国,数据仓库已成为紧次于Internet之后的又一技术热点。数据仓库是市场激烈竞争的产物,它的目标是达到有效的决策支持。大型企业几乎都建立或计划建立自己的数据仓库,数据库厂商也纷纷推出自己的数据仓库软件。目前,已建立和使用的数据仓库应用系统都取得了明显的经济效益,在市场竞争中显示了强劲的活力。
  数据仓库将大量用于事务处理的传统数据库数据进行清理、抽取和转换,并按决策主题的需要进行重新组织。数据仓库的逻辑结构可分为近期基本数据层、历史数据层和综合数据层(其中综合数据是为决策服务的)。数据仓库的物理结构一般采用星型结构的关系数据库。星型结构由事实表和维表组成,多个维表之间形成多维数据结构。星型结构的数据体现了空间的多维立方体。这种高度集中的数据为各种不同决策需求提供了有用的分析基础。

  随着数据仓库的发展,OLAP也得到了迅猛的发展。数据仓库侧重于存储和管理面向决策主题的数据;而OLAP则侧重于数据仓库中的数据分析,并将其转换成辅助决策信息。OLAP的一个重要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。OLAP技术中比较典型的应用是对多维数据的切片和切块、钻取、旋转等 ,它便于使用者从不同角度提取有关数据。OLAP技术还能够利用分析过程对数据进行深入分析和加工。例如,关键指标数据常常用代数方程进行处理,更复杂的分析则需要建立模型进行计算。

  以数据仓库和OLAP相结合建立的辅助决策系统是决策支持系统的新形式。Business Object(BO)推出的智能决策支持系统工具BO 4.0是以OLAP技术为主体的、集查询和报表为一体的决策支持系统开发工具。该工具的一个重要特点是提出了"语义层""语义动态对象"的概念。语义层是将数据库中的列(字段)按决策主题重组为面向用户的对象,对象可以是数据库中的表、列、连接(多字段组合)以及对多字段进行运算的表达式。语义动态对象是对已经定义的语义层对象进行任意组合后形成决策需要的新表,并将表中的数据以可视化的方式在屏幕上显示或以报表的形式打印出来。
  OLAP技术是对由语义动态对象建立的、以动态微立方结构形式存储的表进行向下钻取、向上钻取、跨越钻取、切片和切块等操作。BO4.0的网络版使用户能够在网上通过浏览器查看或下载BO报表。

 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对"人们被数据淹没,人们却饥饿于知识"的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
  数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
  KDD一词首次出现在19898月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X16X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。
  1997年亚太地区在新加坡组织了第一次规模较大的PAKDD学术研讨会,很有特色。今年将在澳大利亚墨尔本召开的PAKDD'98已经收到150多篇论文,空前热烈。
  此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。IEEEKnowledge and Data Engineering 会刊领先在1993年出版了KDD技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威,如要免费订阅,只需向http://wwwkdnuggetscom/subscribehtml发送一份电子邮件即可,还可以下载各种各样的数据挖掘工具软件和典型的样本数据仓库 ,供人们测试和评价。另一份在线周刊为DS*(DS代表决策支持) 1997107开始出版 ,可向dstrial@tgccom提出免费订阅申请。在网上,还有一个自由论坛 DM Email Club 人们通过电子邮件相互讨论DMKD的热点问题。至于DMKD书籍,可以在任何计算机书店找到十多本,但大多带有商业色彩。笔者建议感兴趣者可读一读由美国AAA/MIT1996年出版的《Advances in Knowledge Discovery and Data Mining》一书。当前,世界上比较有影响的典型数据挖掘系统有Cover StoryEXPLORAKnowledge Discovery WorkbenchDB MinerQuest等。

我国决策支持系统的研究始于80年代中期,其应用最广泛的领域是区域发展规划。大连理工大学、山西省自动化所和国际应用系统分析研究所合作完成了山西省整体发展规划决策支持系统。这是一个大型的决策支持系统,在我国起步较早,影响较大。随后,大连理工大学、国防科技大学等单位又开发了多个区域发展规划的决策支持系统。天津大学信息与控制研究所创办的《决策与决策支持系统》刊物,对我国决策支持系统的发展起到了很大的推动作用。我国不少单位在智能决策支持系统的研制中也取得了显著成绩,如以中国科学院计算技术研究所史忠植研究员为首的课题组研制并完成的"智能决策系统开发平台IDSDP"就是一个典型代表。

二、国防信息资源的管理与决策支持研究的主要内容

国防信息资源实质上是一个大样本数据库,随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计,这也就是国防信息资源的管理与决策支持所要研究的主要内容。
  数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库实质的应用仅仅是查询吗?理论根基最深的关系型数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。
  由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。
  专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统,目前的主要理论工具是基于谓词演算的机器定理证明技术--二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。
  在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此,知识获取成为专家系统研究中公认的瓶颈问题。
  其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难,勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题。
  此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据"在某地发现一只刚死的波斯猫"的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。
  以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。
  数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了,迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出"忽如一夜春风来,千树万树梨花开"的繁荣景象。一向以数理统计工具和可视化计算闻名的美国SA S公司,领先宣布进入DMKD行列。

  数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是"买面包和黄油的顾客十有八九也买牛奶",也可能是"买食品的顾客几乎都用信用卡",这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。至于发现工具和方法,常用的有分类、聚类、模式识别、可视化、决策树、遗传算法、不确定性处理等。

三、研究的关键技术与解决思路

1、模型库系统的设计和实现:它包括模型库的组织结构、模型库管理系统的功能、模型库语言等方面的设计和实现。模型库系统是一个新概念、新技术,它不同于数据库系统。数据库系统有成熟的理论和产品,模型库系统则没有,它需要研制者自己设计和开发。这样就不可避免地阻碍了决策支持系统的发展。

以模型库为主体的决策支持系统已经发展了十几年,它对计算机辅助决策起到了很大的推动作用。数据仓库和OLAP新技术为决策支持系统开辟了新途径。数据仓库与OLAP都是数据驱动的。这些新技术和传统的模型库对决策的支持是两种不同的形式,它们可以相互补充。在OLAP中加入模型库,将会极大提高OLAP的分析能力。
  2、部件接口:各部件之间的联系是通过接口完成的,部件接口包括:

a、对数据部件的数据存取;

b、对模型部件的模型调用和运行;

c、对知识部件的知识推理。
  3、系统综合集成:根据实际决策问题的要求,通过集成语言完成对各部件的有机综合,形成一个完整的系统。

  决策支持系统需要对数据、模型、知识、交互四个部件进行集成。目前,计算机语言的支持能力有限,数值计算语言(FORTRANPascalC)不支持对数据库的操作,而数据库语言(FoxProOracleSybase)的数值计算能力又很薄弱。决策支持系统既要进行数值计算又要进行数据库操作。这个问题再一次为决策支持系统的发展带来障碍。
  真正的决策支持系统都是自行解决了上述困难后研制出来的,这需要付出较大的代价。因此,它们成为决策支持系统发展缓慢的主要原因。

  90年代中期从人工智能、机器学习中发展起来的数据开采,是从数据库、数据仓库中挖掘有用的知识,其知识的形式有产生式规则、决策树、数据集、公式等。对知识的推理即形成智能模型,它是以定性分析方式辅助决策的。
  数据开采的方法和技术包括决策树方法、神经网络方法、覆盖正例排斥反例方法、粗集方法、概念树方法、遗传算法、公式发现、统计分析方法、模糊论方法、可视化技术。

  把数据仓库、OLAP、数据开采、模型库结合起来形成的综合决策支持系统,是更高级形式的决策支持系统。其中数据仓库能够实现对决策主题数据的存储和综合,OLAP实现多维数据分析,数据开采用以挖掘数据库和数据仓库中的知识,模型库实现多个广义模型的组合辅助决策,专家系统利用知识推理进行定性分析。它们集成的综合决策支持系统,将相互补充、相互依赖,发挥各自的辅助决策优势,实现更有效的辅助决策。

  综合体系结构包括三个主体。第一个主体是模型库系统和数据库系统的结合,它是决策支持的基础,为决策问题提供定量分析(模型计算)的辅助决策信息。第二个主体是数据仓库、OLAP,它从数据仓库中提取综合数据和信息,这些数据和信息反映了大量数据的内在本质。第三个主体是专家系统和数据开采的结合。数据开采从数据库和数据仓库中挖掘知识,并将其放入专家系统的知识库中,由进行知识推理的专家系统达到定性分析辅助决策。

  综合体系结构的三个主体既可以相互补充又可以相互结合。它可以根据实际问题的规模和复杂程度决定是采用单个主体辅助决策,还是采用两个或是三个主体的相互结合辅助决策。利用第一个主体的辅助决策系统就是传统意义下的决策支持系统。利用第一个主体和第三个主体相结合的辅助决策系统就是智能决策支持系统。利用第二个主体的辅助决策系统就是新的决策支持系统。在OLAP中利用模型库的有关模型,可以提高OLAP的数据分析能力。将三个主体结合起来,即利用"问题综合和交互系统"部件集成三个主体,这样形成的综合决策支持系统是一种更高形式的辅助决策系统,其辅助决策能力将上一个新台阶。由于这种形式的决策支持系统包含了众多的关键技术,研制过程中将要克服很多困难,这也是我们今后努力的方向。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值