浅谈语义网


ž 前言

  随着信息技术的飞速发展,网络空间中了出现大量的数据资源,网络大数据逐渐引起了人们的关注,然而从网络大数据中发现并获取用户所需的数据资源,需要对网络大数据进行有效地组织管理,并进行基于数据语义的相似搜索。传统信息检索信息资源缺少统一的语义描述,用户难以查找到与需求相关的资源,出现了查找精确度低的现象,针对这一缺陷,实现语义级的信息检索的研究成为目前研究的热点。

  随着人工智能技术在人类生活中的应用越来越广泛,基于人的情感基础、思考方式的信息检索方式将是未来发展的趋势,而普适计算等一系列新兴技术的出现与兴起,为语义网的发展提供了技术支持与更高的要求,使语义网能够在大数据时代更好地为人类社会服务,更加贴近于人类的生活,使人类达到更高层次的智能生活。

  本文将在博取众家之长的基础上向大家介绍关于语义网的发展背景、概念与定义、现阶段应用、研究现状以及在大数据时代下语义网的发展。由于本文只是对语义网进行一个初步的研究,并不涉及任何个人研究内容,若与引用文献内容有出入,以引用文献为主。

ž 发展背景

  随着信息技术的不断发展,我们迎来了一个数字信息极速膨胀的时代,这主要是数字文档信息的组织、处理和搜索相关问题而引起的信息过剩。由于相关技术的发展速度似乎落后于网上内容量的增长速度,虽然信息检索有搜索引擎的辅助,但用户在网上搜索相关信息的过程是极其复杂的,因为同一个搜索关键词可能会涉及很多个领域,从而会得到不同的答案,所以会出现用户通常不完全满意想要查询的结果。从实际来看,用户想要精确的结果,需要花费相当多的时间来完成检索,也就是说用户并不能在较短的时间内找到自己想要查找的内容。之所以会有这样不合理的现象出现,是由于传统的搜索引擎仅有几种返回结果的方法,快速检索往往返回的结果是大量的网页,没有经过细致的筛选,不符合用户的查找标准,所以并不是用户想要查找到的精确的答案。

  万维网创始人Tim Berners-Lee将万维网的演化分为两个阶段,在第一个阶段,万维网应该是一个有利于人们相互合作的强大工具。万维网最初十年的发展基本上实现了这个目标:它以HTML页面的方式向人提供了大量的信息。在第二个阶段,这种合作应该延伸到机器,也就是说连接到万维网上的机器也应该能够分析万维网上的所有数据——包括内容、链接以及人与机器之间的交互。如何实现万维网的第二阶段目标正是目前学术界研究的热点。

  实现这一目标的难点在于传统的HTML语言本身的固有缺陷,这种标记语言的标签集只是对内容的显示格式做了标记,数据的表现格式和数据糅合在一起,缺乏针对数据内容的标签。HTML语言的这种特点决定了万维网上的信息内容很难被机器所理解,从而制约了一些需要对万维网上的海量数据进行自动化处理应用的开发。例如:搜索引擎很难在查准率和查全率这两方面有所突破,搜索到的页面也只是和搜索关键字相匹配的页面,造成一方面遗漏大量内容相关的页面,另外一方面找到太多不相关页面;一些对万维网页面内容的提取程序只能针对特定站点的固定格式,从中提取一些感兴趣的信息,如果站点的格式稍有变化,内容提取程序也要做相应的调整。虽然近年来在自然语言处理(NLP)、机器学习等领域对文本内容的理解等方面做出了大量的努力,提出了基于概率、向量空间等各种方法来加强对文本相关性的理解,但是从效果上看,还很难让人满意。Web上海量的数据要求以一种能够理解数据语义的方式进行交换和管理,当前基于HTML的web技术却很难满足要求。

  针对传统信息检索方式的不足,专家们提出了一条新的途径来解决,即用一种更容易被机器处理的表示方法来描述网上内容。这个革命性方案称为“语义网”运动。语义网并不是与现有万维网平行的、新的全球化信息高速公路,它将在现有万维网的基础上组建成长,利用万维网的基础发展更适合于人类社会的检索方式。语义网的目标是为因特网上的信息提供具有计算机可以理解的语义,它的发展和成熟使得高效高质的语义信息检索成为可能。

ž  概念与定义

  语义网就是指能够根据语义进行判断的智能网络,实现人与电脑之间的无障碍沟通。它好比一个大规模大脑,智能化程度极高,协调能力非常强大,能够理解人类的意图、与人类进行交流。在语义网上连接的每一部电脑不但能够理解平面化的词语和概念,而且还能够理解它们之间的逻辑关系,从而达到人类的逻辑思维能力。语义网中的计算机能利用智能软件,在万维网上的海量资源中对数据进行筛选与分析,并最终找到你所需要的信息,而在这基础上需要的是将海量资源进行整合,从而将一个个现存的信息孤岛发展成一个巨大的数据库。

  语义网的数据主要供人类使用,新一代WWW中将提供也能为计算机所处理的数据,这将使得大量的智能服务成为可能;语义网研究活动的目标是“开发一系列计算机可理解和处理的表达语义信息的语言和技术,以支持网络环境下广泛有效的自动推理”。

  语义网的建立极大地扩大了人工智能领域的部分,与web 3.0智能网络的理念不谋而合,因此语义网的初步实现也作为web 3.0的重要特征之一,但是想要实现成为网络上的“超级大脑”,需要长期的研究,这意味着语义网的相关实现会占据网络发展进程的重要部分,并且延续于数个网络时代,逐渐最终转化成“智能网”。

ž  语义网与万维网

  目前我们所使用的万维网,实际上是一个存储和共享图像、文本的媒介,电脑的功能是呈现这一堆文字或者图像,对其中的内容并不能进行识别。若要让电脑处理万维网中的信息的话,就必须首先将这些信息加工成计算机可以理解的原始信息后才能进行处理,基于万维网来说这是一件复杂的事情,而语义网的建立则将能降低处理的难度。

  例如,某天你需要因公出差去青岛,你可以打开电脑连接到语义网上,向电脑输入指令“预定今天早上9点至11点之间任意时刻去往青岛的高铁车票”,你的电脑并会对你输入的指令进行分析并执行,计算机会先与你居住地的高铁站进行联系,查找到符合你要求的高铁车票并进行预订,你就不必自己查找高铁票的信息再进行订购,你的电脑会帮你完成之后的一系列事务,你需要做的就是动一动鼠标进行确认就好。

  在浏览新闻时,语义网将给每一篇新闻报道贴上标签,分门别类的详细描述哪句是作者、哪句是导语、哪句是标题。这样,如果你在搜索引擎里输入“老舍的作品”,你就可以轻松找到老舍的作品,而不是关于他的生平简介或者其他的一些不符合查找要求的结果。

  语义网是一种更丰富多彩、更个性化的网络,你可以给予其高度信任,让它帮助你滤掉你所不需要的内容,使得网络更符合你的使用需求。

  它与普通万维网差异主要有以下几点:

一、面向的对象不同

  目前的万维网主要使用HTML表达网页内容。使用HTML标记的网页的确可以表达一些网页显示格式之类的信息,从而使人们认为计算机真的可以“理解”我们的意图,但实际上HTML仅注重文本的表现形式,如字体颜色、大小、类型等,而不考虑文本的具体内容与含义。虽然万维网上有一些自动的脚本程序可以帮助人们实现一部分功能,但在开放式的网络环境中,它们并不能很好地用于计算机之间的交互。因此目前我们所使用的万维网主要是供“人”阅读和使用的。而语义网则是要在万维网之上加入一些可以被计算机“理解”的语义信息,它在方便人们阅读和使用的同时,也方便计算机之间的相互交流与合作,符合计算机的“思考逻辑”。因此,万维网面向的对象主要是“人”,而语义网面向的对象则主要是“机器”。

二、信息组织方式不同

  由于二者面向的对象不同,因此在信息组织方式上自然会存在很大的差异。万维网在组织信息资源时主要以“人”为中心,按照人们的思维习惯和方便性组织网络信息资源;语义网在组织信息资源时则必须兼顾计算机对文本内容的“理解”以及它们之间的相互交流和沟通。

三、侧重点不同

  万维网侧重于信息的显示格式和样式,对于其显示的内容并不做过多的分析与处理,而语义网会根据用户的需求对所要显示的信息进行处理。例如对于比较重要的信息,万维网可能会在其显示上以大字体、或颜色鲜明的字体表示,而语义网则更加侧重于信息的语义内容,对具有特定意义的文本必须进行一定的标注或解释。

四、主要任务不同

  万维网主要是供人阅读、交流和使用的,其主要任务就是通过在网络上发布或获取信息来达到共享和交流的目的;语义网的主要任务则是计算机之间的相互交流和共享,从而使计算机可以代替人们完成一部分工作,使网络应用更加符合人类的使用需求。

五、工作方式不同

  万维网面向对象主要是“人”,因此其大部分工作都是由人来完成的,包括信息的收集、检索、整理、排序和分析等等,而语义网通过加入一些可以被计算机“理解”的语义信息,则可以把人从上述各类繁琐的工作中解脱出来,利用“智能代理”帮助完成上述的大部分工作。一个典型的例子就是信息检索,利用智能搜索代理,语义网将把真正符合用户需求的信息内容反馈给用户,而不像现在的搜索引擎那样输出大量的无用的搜索结果。

ž  语义信息检索及其分类

  为了使高效高质的语义信息检索成为可能,研究人员提出了一个新的语义信息检索系统的方案,该方案是基于语义信息表示的,用于在给定的查询内容情况下检索相关的文档信息,根据用户的偏好消除歧义,给出一个更精确的查询,将查询关键词处理成本体信息的上下文,通过执行上下文查询方法来实现语义信息检索。

  语义信息检索实际上就是将Ontology 所反映的语义关系应用到对信息资源的标注和检索中,具体是通过对相关文档的解析和推理在语义层面实现信息检索,并以适当的形式和友好的界面与用户进行交流。语义信息检索包括本体文档检索、实例检索和语义关系检索。

  本体文档检索就是在构建的本体中搜索找到指定分类和属性的本体文档。实现本体文档检索有很多不同的方法,其中一种方法是对本体文档进行改造处理,使其适用于普通搜索引擎,即通过对RDF或OWL文档进行处理,可以使匹配普通搜索引擎对其进行索引和检索,同时又因其对信息的描述方式发挥其语义信息的作用。另一种方法是研究基于本体的搜索方法和技术,例如针对某个网站构建符合它的特定搜索器或是直接运用Jena2的搜索器。系统运用搜索器搜索特定的语义网文档,抽取这些文档中元数据与信息一并将其存入数据库,数据库支持对含有某一特定类或属性的查询。

  实例检索就是在构建的本体库中发现与查询某一指定类的实例信息,它主要对基于RDF (S)、OWL等底层知识模型进行结构化查询和推理。实例检索更容易与传统检索进行结合,在用户输入查询请求后,将查询请求转换为语义网表示的信息,结合语义扩展算法,将查询请求与本体库中的概念进行匹配,匹配后运用语义推理查找相关概念,找到指定的概念,针对查询概念在 RDF实例文档中通过图遍历查询与概念相关的所有实例信息,这些实例信息就是最后的检索结果。

  既然有了对本体文档以及实例的检索,于是一些研究开始关注对语义关系的检索。语义关系检索是对概念之间各种复杂关联关系的检索。如研究概念间的各种复杂关联关系,指出了语义关系检索所面临的一些问题,即缺少以关系为对象的查询语言和系统、对关系的理解不够通用和全面、检索结果的排序等问题,最后针对这些问题提出相关的解决方法。

ž  现阶段应用

  近年来出现的万维网新标准——可扩展标记语言(eXtensible MarkupLanguage, XML)最大的特点在于用户可以根据需要制订能够反映数据内容的标签,实现数据内容和数据表现方式的分离。XML及其相关的技术,使传统万维网上的信息内容从面向人浏览转为同时面向计算机自动处理迈出了非常重要的一步。面向计算机自动处理的前提是机器可以理解数据的内容,人类理解了某个事物意味着他能够将这个事物与其它早已熟知的事物相联系,而机器能够理解某个概念是指机器能够执行一些和这个概念相关的查询或其它操作。语义网就是一个由大量机器可以理解的数据所构成的一个分布式的体系结构,在这个体系结构中,数据之间的关系通过一些术语表达,这些术语之间又形成一种复杂的网络联系,计算机能够通过这些术语得到数据的含义,并且可以在这种联系上应用逻辑来进行推理,从而完成一些原来不能直接完成的工作。

  随着语义万维网概念的提出和相关研究的进展,将出现许多基于语义万维网技术的应用,主要分为智能信息检索、企业间数据交换及知识管理、万维网服务这三个方面的应用。 

  面对海量信息,智能信息检索一直是科研人员的重要课题。但是,万维网上传统的信息表示方法使信息检索面临了种种窘境。因此改进信息检索的重要方法之一就是整理和重新规范万维网上信息。如今万维网上保留有高速发展期间产生的大量普通HTML页面,整理这些信息的实质性问题就是如何从HTML页面中提取出语义信息,构建出能够描述这些页面的Ontology。手工实现这一过程需要耗费大量的人力、物力,因此可行的办法是采用Ontology学习系统,实现Ontology的自动或半自动提取。不仅对文本信息,可以采用语义万维网的方法来加强智能检索,而且还可以对多媒体信息,结合模式识别和对象提取技术,实现基于内容的检索。前人对传统万维网信息内容模型、信息检索和信息提取、计算语言学、机器学习等方面展开了大量的研究,并取得了很多成果,为网络信息的整理打下了很好的基础。 

  企业间的数据交换和知识管理一直是基于万维网的电子商务和ERP系统的重要组成部分,现有很多项目都围绕着企业万维网知识管理而展开,这些项目潜在的假设就是:企业提供的万维网信息结构可以转化成为一个巨大的知识库。这种转化的重要基础就是利用基于ontology的元数据来对企业发布的信息或企业的内部文档进行标注。围绕这一假设,需要开发一系列的相关技术和工具:如企业知识的建模、标注工具、ontology的提取工具、ontology推理工具等。ontoweb就是这样的一个项目,它的目标在于激励和支持语义万维网技术从学术界向工业界的转化,同时也向工业界证实ontology在知识管理、电子商务、以及企业信息集成方面具有的潜在价值。 

  当前万维网正在从一个文本、图片、音频、视频的信息提供者向服务的提供者转变,这种转变体现了“网络就是计算机,软件就是服务”的思想。产业界目前推动的Web Service通过万维网向外界提供了如何调用自身功能/服务的说明。由于在Web环境下的分布式计算涉及到平台的异构性,因此它的核心技术包括XML作为数据传输和交换的标准格式和以SOAP作为发送和接收XML数据的基本消息协议,底层的传输则采用HTTP、FTP、SMTP、IPv4、IPv6等Internet 协议,服务的描述、查找和发布则采用了WSDL、DISCO、UDDI等协议。当前,服务并没有以ontology为基础,基本上还是采用标准化分类的方式来描述服务的功能、提供者以及如何访问服务并与之交互。因此它们对服务的描述能力非常有限,而且缺少灵活性。学术界在语义万维网研究中提出了基于ontology的一些服务描述语言如DAML-S等,这些语言为Semantic Web和Web Service的结合提供了一个良好的契机。通过创建语义万维网的语义描述,使得Web Service能够被机器理解、对用户透明。同时这种描述能够被Agent自动处理,实现Web Service10 之间的交互性。

  现阶比较成功的一项应用是RSS。RSS(简易信息聚合,也叫Really Simple Syndication、聚合RSS、聚合内容),是一种消息来源格式规范,用以聚合经常发布更新数据的网站,例如博客文章、新闻、音频或视频的网摘。RSS文件(或称做摘要、网络摘要、或频更新)包含了全文或是节录的文字,再加上发用者所订阅之网摘布数据和授权的元数据,通常在时效性比较强的内容上使用RSS订阅能更快速获取信息。网站提供RSS输出,有利于让用户获取网站内容的最新更新。网络用户可以在客户端借助于支持RSS的聚合工具软件(例如SharpReader、NewzCrawler、FeedDemon),在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。

 RSS阅读器基本可以分为三类:

  第一类大多数阅读器是运行在计算机桌面上的应用程序,通过所订阅网站的新闻供应,可自动、定时地更新新闻标题。在该类阅读器中,有Awasu、FeedDemon和RSSReader这三款流行的阅读器,都提供免费试用版和付费高级版。

  第二类新闻阅读器通常是内嵌于已在计算机中运行的应用程序中。例如,NewsGator内嵌在微软的Outlook中,所订阅的新闻标题位于Outlook的收件箱文件夹中。另外,Pluck内嵌在Internet Explorer浏览器中。

  第三类则是在线的WEB RSS阅读器,其优势在于不需要安装任何软件就可以获得RSS阅读的便利,并且可以保存阅读状态,推荐和收藏自己感兴趣的文章。提供此服务的有两类网站,一种是专门提供RSS阅读器的网站,例如国外的Google Reader,国内的鲜果、抓虾;另一种是提供个性化首页的网站,例如国外的netvibes、pageflakes,国内的雅蛙、阔地。

 RSS作为较为成功的语义网应用,具有许多优点:

 1. 多样性、个性化信息的聚合。RSS是一种基于XML(Extensible Markup Language,扩展性标识语言)标准,是一种互联网上被广泛采用的内容包装和投递协议,任何内容源都可以采用这种方式来发布,包括专业新闻、网络营销、企业、甚至个人等站点。若在用户端安装了RSS阅读器软件,用户就可以按照喜好、有选择性地将感兴趣的内容来源聚合到该软件的界面中,为用户提供多来源信息的“一站式”服务。

2. 信息发布的时效强、成本低廉。由于用户端RSS阅读器中的信息是随着订阅源信息的更新而及时更新的,所以极大地提高了信息的时效性和价值。此外,服务器端信息的RSS包装在技术实现上极为简单,而且是一次性的工作,使长期的信息发布边际成本几乎降为零,这完全是传统的电子邮件、互联网浏览等发布方式所无法比拟的。

3. 无“垃圾”信息和信息量过大的问题。RSS阅读器中的信息是完全由用户订阅的,对于用户没有订阅的内容,以及弹出式广告、垃圾邮件等无关信息则会被完全屏蔽掉。因而不会有令人烦恼的“噪音”干扰。此外,在用户端获取信息并不需要专用的类似电子邮箱那样的“RSS 信箱”来存储,因而不必担心信息内容的过大问题。

4. 没有病毒邮件的影响。在RSS阅读器中保存的只是所订阅信息的摘要,要查看其详细内容与到网站上通过浏览器阅读没有太大差异,因而不必担心病毒邮件的危害。

5. 本地内容管理便利。对下载到RSS阅读器里订阅内容,用户可以进行离线阅读、存档保留、搜索排序及相关分类等多种管理操作,使阅读器软件不仅是一个“阅读”器,而且还是一个用户随身的“资料库”。

  由于技术还尚未成熟,所以RSS也存在一些亟待改进的地方:

1. RSS的应用远不如电子邮件普及,从而限制了RSS订阅的应用范围。

2. 若长期不接收RSS信息,对于过期的信息则无法浏览。这是由于没有专门的服务器为每个用户保存信息,如果用户不及时接收,信息则过时不候。

3. 难以评估RSS营销效果。因为在RSS中不能添加任何的脚本语言,使统计订阅人数比较困难,只能通过一些特别的技术方法来分析RSS的下载次数多少来估计订户数量,因而对于RSS营销效果无法准确地评价。

4. 难以实现个性化服务。电子邮件的用户个性化技术已经非常成熟了,但对于通过RSS获取信息的方式而言,还没有得到很好地解决。

总之,RSS 营销与邮件列表营销相比具有很大的优势,特别是克服了邮件列表营销中常出现的垃圾邮件、病毒、信息即时性差等致命缺点,因而将有力地促进RSS营销的推广应用。所以,网络营销者一定要加以足够地重视,以增强自己的竞争优势。当然RSS营销模式还有很多的问题要面对,对于如何有效地利用更需深入地研究探讨。

随着越来越多的站点对的支持,RSS已经成为目前最成功的XML应用。RSS搭建了信息迅速传播的一个技术平台,使得每个人都成为潜在的信息提供者。相信很快就能看到大量基于RSS的专业门户、聚合站点和更精确的搜索引擎。

ž  研究现状

  我们知道,大部分科技创新和突破是对已有知识的重新组合和更新,具有对网络空间所储存的数据进行智能评估能力的语义网,必然会为新的科技创新提供无尽的资源。一旦这种技术被广泛运用,其产生的效益无可估量。因此,语义网从诞生之日起,便成为计算机研究的热点领域。

  W3C组织是语义网主要的推动者和标准制定者,在它的呵护之下,语义网技术羽翼渐丰。2001年7月30日,美国斯坦福大学召开了题为“语义网基础设施和应用”的学术会议,这是有关语义网的第一个国际会议。2002年7月9日,在意大利召开了第一届国际语义网大会。此后语义网大会每年举行一次,形成惯例。同时,HP、IBM、微软、富士通等大公司,斯坦福大学、马里兰大学、德国卡尔斯鲁厄大学、英国曼彻斯特维多利亚大学等教育机构都对语义网技术展开了广泛深入的研究,开发出了Jena、KAON、Racer、Pellet等一系列语义网技术开发应用平台、基于语义网技术的信息集成以及查询、推理和本体编辑系统。

国内语义网研究现状

  我国也非常重视语义网的研究,早在2002年,语义网技术就被国家863计划列为重点支持项目,清华大学、东南大学、上海交通大学、北京航空航天大学和中国人民大学都是国内语义网及其相关技术的研究中心。东南大学的语义网本体映射研究有一定的国际影响,清华大学的语义网辅助本体挖掘系统SWARMS,上海交通大学的本体工程开发平台ORIENT都代表了国内语义网研发水平,时下流行的人机互动工具都是语义网络的具体应用,但是其中水平参差不齐,通过一些简单的测试就可以看出他们差异。

ž  语义网与大数据

  近年来,随着互联网、物联网、社交网络、云计算等信息技术的发展,网络空间中的数据资源正以前所未有的速度不断地增长和积累,世界已经进入了网络化的大数据时代。大数据指在可容忍的时间内用常用软硬件工具无法对其进行有效感知、获取、管理、处理和服务的数据集合。IBM、IDC等权威机构将其特点总结为4V特性:规模巨大化,形式多样化,生成高速化,价值巨大但密度稀疏化。大数据的兴起引起了产业界、学术界及政府机构的高度重视。Microsoft、Google、IBM、Facebook等国际IT巨头广泛应用并推动大数据技术的发展。Jimgary提出了数据密集型科学的“第四范式 ”,改变了人们对传统计算科学的看法;而 《Nature》与《Science》也相继专刊讨论研究与大数据相关的问题。此外,美国政府于2012年公布了“大数据研发方案”,该计划被视为美国政府继“信息高速公路”计划后又一重大举措。

  网络大数据指“人、机、物”三元世界在网络空间中彼此交互与融合所产生并在互联网上可获取的大数据,其特点符合大数据的4V特性。首先,网络空间中数据资源飞速增长,数据规模不断扩大,呈现出海量的特性;其次,网络大数据类型丰富多样,呈现出多样化及异构化的特点,网络空间中涌现了大量的结构化数据、半结构化数据及非结构化数据且非结构化数据的比例不断增长;再次,网络空间中大数据变化更新频繁,常以数据流的形式动态、快速地生成,具有很强的时效性;最后,网络空间中大数据价值巨大但呈现出稀疏性的特点,由于数据量巨大及表现形式多样化,传统的方法技术很难高效发现并获取用户所需的数据资源,实际应用中往往呈现出“数据丰富而知识缺乏”的窘态,网络大数据价值利用密度低。网络大数据对社会产生了深刻的影响,孕育着巨大的机遇,同时也为有效管理和利用大数据提出了挑战。在当前数据爆炸的大数据时代,针对网络空间中数据规模巨大,形式异构动态变化,分布广泛等特点,如何高效地组织管理并搜索发现用户所需的数据资源面临着以下3个难点问题 :

(1)网络空间中数据资源类型繁多,表现形式多样,而形式异构的数据资源可能具有相同或相似的语义信息,传统的基于精确匹配的搜索方法不能有效地获取用户所需的数据资源。为了实现基于语义的智能搜索,需要将网络中海量异构的数据资源统一映射为语义空间中的高维数据,并通过有效手段快速锁定搜索区间,利用相似性搜索方法获取与用户语义相关的数据资源。

(2)随着网络空间中数据资源的日益丰富,语义空间维度急剧增加。当空间维度过高时,在语义空间中实现相似性搜索的性能急剧下降,引发“维度灾难”。

(3)由于大数据的4V特性,在将网络大数据映射到统一的语义空间并进行基于语义的相似性搜索过程中将占用大量的计算及存储资源。传统的集中式处理方式容易产生性能瓶颈,系统的稳定性及可扩展性较差,不能很好的应对海量的网络数据及复杂的用户需求。

  以上3个问题可总结为:如何在统一的语义空间中描述网络大数据的语义信息,并对其进行适当的组织划分,实现基于语义的智能搜索发现;如何解决语义空间维度过高所引起的 “维灾”问题;如何合理分配数据组织搜索过程中产生的庞大计算及存储开销,提高系统性能。本文对现有工作进行了深入研究,将上述问题的解决方法总结为对应的3个方面:高维索引技术、数据降维技术及分布式语义相似性搜索技术。

  高维索引将海量异构的数据资源统一映射到语义空间,并根据给定的用户查询快速确定搜索区间,修剪掉与查询请求语义无关的数据集合,可以实现基于语义的相似性搜索。当语义空间维度过高时,容易引发“维灾”问题,导致高维索引的性能急剧下降,甚至不如顺序扫描。降维技术通过构造降维映射,获得高维数据集合的低维表示,可以有效消除“维灾”带来的影响。针对传统集中式设置带来的局限性,分布式高维索引或降维技术可以合理分配计算及存储开销,提高系统的健壮性及可扩展性,有效地应对网络大数据带来的挑战。

  网络空间中数据资源的爆炸式增长为当今社会带来了宝贵机遇,同时也为如何有效利用网络大数据提出了巨大挑战。总体来说,对于网络大数据的研究还处于起步阶段,尚有许多问题亟待解决,将来研究可以重点关注:

(1)如何准确提取各种网络大数据资源的语义特征信息,确保构造的高维语义空间能够准确反映网络数据资源的语义信息,尽量避免噪声等因素的干扰。

(2)针对网络大数据资源的语义空间维数高,动态增长,数据分布不规则等特点,提出先进的降维方法以适应网络大数据的特点,在保持数据资源语义不丢失情况下,尽可能降低语义空间维数,消除“维灾”的影响。

(3)将降维技术与高维索引技术有效结合,在降维的基础上利用高维索引技术,修剪掉大量与给定搜索无关的搜索路径,快速确定搜索范围,进一步提高基于语义相似搜索的速度及精度。

(4)深化分布式语义搜索系统的研究,针对非结构化P2P及结构化P2P固有的优缺点,考虑对两者进行综合,取长补短,尽可能减少数据语义搜索过程中所需流量,克服负载不均衡,免费搭乘等不足,进一步提高系统的性能。

(5)将现有成熟的信息检索技术与基于语义的相似性搜索技术相结合,实现网络空间内智能高效的数据组织及搜索发现。

ž  结束语

  语义网技术改变了信息资源的描述方式,它对信息资源进行统一的语义描述,将语义网技术引入信息检索领域,为信息检索开创了一个崭新的研究方向——语义信息检索,随着语义网技术的研究越来越纯熟,语义信息检索的各项技术也更加成熟。文中提出的语义信息检索框架是基于语义网方法与技术的,利用语义网中的本体技术对网络资源进行描述,然后将用户端给定的关键词与本体中信息资源进行匹配,得到检索的查询条件,针对该查询条件本体模型进行遍历,最终找到与关键词相匹配的本体实例,这些实例就是最终所要查询的结果。文中还提出了基于语义信息检索框架的信息检索算法,在未来的工作中将针对该算法设计出语义查询系统,实现与用户的交互。

 

参考资料:

1.      《基于语义网的知识管理系统框架设计》                 张海霞 吴江

2.      《面向服务的语义网络框架及其关键技术》            曹蓉 朱颖 褚伟

3.      《语义信息检索框架设计及其算法研究》               李桂华 汪学明

4.      《基于语义的网络大数据组织与搜索》           吴纯青 任沛阁 王小峰

5.      《语义万维网的概念、方法及应用》                 朱礼军 陶兰 黄赤

6.      《语义网的研究与展望》                                       王宁

7.      RSS 搜狗百科词条

8.      语义网 搜狗百科词条

阅读更多

没有更多推荐了,返回首页