语义网

       语义网(Semantic Web)是对未来网络的一个设想,现在与Web 3.0这一概念结合在一起,作为3.0网络时代的特征之一。简单地说,语义网是一种智能网络,它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以使交流变得更有效率和价值。

       语义网,它的核心是:通过给万维网上的文档 (如:HTML文档、XML文档)添加能够被计算机所理解的语义元数据(外语:Meta data),从而使整个互联网成为一个通用的信息交换媒介。

概念

语义网的概念是由万维网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念,实际上是基于很多现有技术的,也依赖于后来和text-and-markup与知识表现的综合。其渊源甚至可以追溯到20世纪60年代末期的Collins、Quillian、Loftus等人的研究,还有之后70年代初Simon、Schamk、Minsky等人陆续提出的一些理论上的成果。其中Simon在进行自然语言理解的应用研究时提出了语义网络(Semantic Network,不是现在的Semantic Web)的概念。当时人们甚至发明了以逻辑为基础的程序设计语言Prolog

蒂姆·伯纳斯-李在2006年普林斯顿大学演讲和后期接受媒体采访时公开表示,他最初将这种智能网络命名为语义网或许不够贴切,也许更准确的名称应该是数据网(外语:Data Web)。

语义网就是能够根据语义进行判断的智能网络,实现人与电脑之间的无障碍沟通。它好比一个巨型的大脑,智能化程度极高,协调能力非常强大。在语义网上连接的每一部电脑不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以干人所从事的工作。它将使人类从搜索相关网页的繁重劳动中解放出来,把用户变成全能的上帝。语义网中的计算机能利用自己的智能软件,在万维网上的海量资源中找到你所需要的信息,从而将一个个现存的信息孤岛发展成一个巨大的数据库。

语义网的建立极大地涉及了人工智能领域的部分,与Web 3.0智能网络的理念不谋而合,因此语义网的初步实现也作为Web 3.0的重要特征之一,但是想要实现成为网络上的超级大脑,需要长期的研究,这意味着语义网的相关实现会占据网络发展进程的重要部分,并且延续于数个网络时代,逐渐转化成“智能网”。

基本特征

类似于Web 2.0以AJAX概念为契机,如果说Web 3.0以语义网概念为契机的话,同样会有近似于AJAX的一种技术,成为网络的标准、置标语言或者相关的处理工具,用来扩展万维网,开创语义网时代。拥有这一技术的企业将是网络时代的弄潮儿。

语义网不同于现在WWW,现有的WWW是面向文档而语义网则面向文档所表示的数据,而语义网更重视于计算机“理解与处理”,并且具有一定的判断、推理能力。

语义网的实现意味着当时会存在一大批与语义网相互依赖的智能个体(程序),广泛的存在于计算机、通讯工具、电器等等物品上,他们组合形成环绕人类生存的初级智能网络。

语义网是WWW的扩展与延伸,它展示了WWW的美好前景以及由此而带来的互联网的革命,但语义网的实现仍面临着巨大的挑战:

  • 内容的可获取性,即基于Ontology(本体,下同) 而构建的语义网网页目前还很少;

  • 本体的开发和演化,包括用于所有领域的核心本体的开发、开发过程中的方法及技术支持、本体的演化及标注和版本控制问题;

  • 内容的可扩展性,即有了语义网的内容以后,如何以可扩展的方式来管理它,包括如何组织、存储和查找等;

  • 多语种支持;

  • 本体语言的标准化

区别

如何理解与判断?

语义网“不同于现存的万维网,其数据主要供人类使用,新一代WWW中将提供也能为计算机所处理的数据,这将使得大量的智能服务成为可能”;语义网研究活动的目标是“开发一系列计算机可理解和处理的表达语义信息的语言和技术,以支持网络环境下广泛有效的自动推理”。

目前我们所使用的万维网,实际上是一个存储和共享图像、文本的媒介,电脑所能看到的只是一堆文字或图像,对其内容无法进行识别。万维网中的信息,如果要让电脑进行处理的话,就必须首先将这些信息加工成计算机可以理解的原始信息后才能进行处理,这是相当麻烦的事情。而语义网的建立则将事情变得简单得多。

例如,某天早上你突然想去可可西里旅游,于是你打开电脑,连通语义网,输入“预订今天下午两点到六点之间任意时刻的到可可西里的飞机票”,此刻你的计算机代理将先与你所住地点航空公司的代理进行联系,获得符合你要求的飞机票信息,然后联系航空公司的订票代理,完成订购。你不必像现在这样上网查看时间表,并进行拷贝和粘贴,然后打电话或在线预订机票和宾馆等,安装在你计算机上的软件会自动替你完成上述步骤,你所做的仅仅是用鼠标按几个按钮,然后等着送飞机票的人上门甚至直接去机场登机就可以了。

在浏览新闻时,语义网将给每一篇新闻报道贴上标签,分门别类的详细描述哪句是作者、哪句是导语、哪句是标题。这样,如果你在搜索引擎里输入“老舍的作品”,你就可以轻松找到老舍的作品,而不是关于他的文章。

总之,语义网是一种更丰富多彩、更个性化的网络,你可以给予其高度信任,让它帮助你滤掉你所不喜欢的内容,使得网络更像是你自己的网络。它与普通万维网差异主要有以下几点:

一、面向的对象不同

目前的万维网主要使用HTML表达网页内容。使用HTML标记的网页的确可以表达一些控制网页显示格式之类的信息,从而使人们认为计算机真的可以“理解”我们的意图。但实际上HTML仅注重文本的表现形式,如字体颜色、大小、类型等,而不考虑文本的具体内容与含义。虽然万维网上有一些自动的脚本程序可以帮助人们实现一部分功能,但在开放式的网络环境中,它们并不能很好地用于计算机之间的交互。因此目前我们所使用的万维网主要是供“人”阅读和使用的。而语义网则是要在万维网之上加入一些可以被计算机“理解”的语义信息,它在方便人们阅读和使用的同时,也方便计算机之间的相互交流与合作。因此,万维网面向的对象主要是“人”,而语义网面向的对象则主要是“机器”。

二、信息组织方式不同

由于二者面向的对象不同,因此在信息组织方式上自然会存在很大的差异。万维网在组织信息资源时主要以“人”为中心,按照人们的思维习惯和方便性组织网络信息资源。语义网在组织信息资源时则必须兼顾计算机对文本内容的“理解”以及它们之间的相互交流和沟通。

三、侧重点不同

万维网侧重于信息的显示格式和样式,而不关心所要显示的内容。例如对于比较重要的信息,万维网可能会在其显示上以大字体、或颜色鲜明的字体表示。而语义网则更加侧重于信息的语义内容,对具有特定意义的文本必须进行一定的标注或解释。

四、主要任务不同

万维网主要是供人阅读、交流和使用的,其主要任务就是信息发布与获取。通过在网络上发布或获取信息来达到共享和交流的目的。语义网的主要任务则是计算机之间的相互交流和共享,从而使计算机可以代替人们完成一部分工作,使网络应用更加智能化、自动化和人性化。

五、工作方式不同

语义网与万维网面向的对象不同,它们的工作方式自然也有所不同。万维网主要面向“人”,因此其大部分工作都是由人来完成的,包括信息的收集、检索、整理、排序和分析等等。而语义网通过加入一些可以被计算机“理解”的语义信息,则可以把人从上述各类繁琐的工作中解脱出来,利用“智能代理”帮助完成上述的大部分工作。一个典型的例子就是信息检索,利用智能搜索代理,语义网将提供给人们真正需要的信息内容,而不像现在的搜索引擎那样输出数以万计的无用的搜索结果。

实现

语义网虽然是一种更加美好的网络,但实现起来却是一项复杂而浩大的工程。 目前语义网的体系结构正在建设中,主要需要以下两方面的支持:

一、 数据网络的实现

即:通过一套统一的完善的数据标准对网络信息进行更彻底更详细的标记,使得语义网能够精准的识别信息,区分信息的作用和含义

要使语义网搜索更精确彻底,更容易判断信息的真假,从而达到实用的目标,首先需要制订标准,该标准允许用户给网络内容添加元数据(即解释详尽的标记),并能让用户精确地指出他们正在寻找什么;然后,还需要找到一种方法,以确保不同的程序都能分享不同网站的内容;最后,要求用户可以增加其他功能,如添加应用软件等。

语义网的实现是基于可扩展标记语言标准通用标记语言的子集、外语缩写:XML)和资源描述框架(外语缩写:RDF)来完成的。XML是一种用于定义标记语言的工具,其内容包括XML声明、用以定义语言语法的DTD (document type declaration文档类型定义)、描述标记的详细说明以及文档本身。而文档本身又包含有标记和内容。RDF则用以表达网页的内容

二、具有语义分析能力的搜索引擎

如果说数据网络能够短时间通过亿万的个体实现,那么网络的语义化智能化就要通过人类尖端智慧群体的努力实现。研发一种具有语义分析能力的信息搜索引擎将成为语义网的最重要一步,这种引擎能够理解人类的自然语言,并且具有一定的推理和判断能力。

语义搜索引擎(外语:semantic search engine)和具有语义分析能力的搜索引擎(外语:semantically enabled search engine)是两码事。前者不过是语义网络的利用,一种信息搜索方式,而具有语义分析能力的搜索引擎是一种能够理解自然语言,通过计算机的推理而进一步提供更符合用户心理的答案。

现状

我们知道,大部分科技创新和突破是对已有知识的重新组合和更新,具有对网络空间所储存的数据进行智能评估能力的语义网,必然会为新的科技创新提供无尽的资源。一旦这种技术被广泛运用,其产生的效益无可估量。因此,语义网从诞生之日起,便成为计算机研究的热点领域。

W3C组织是语义网主要的推动者和标准制定者,在它的呵护之下,语义网技术羽翼渐丰。2001年7月30日,美国斯坦福大学召开了题为“语义网基础设施和应用”的学术会议,这是有关语义网的第一个国际会议。2002年7月9日,在意大利召开了第一届国际语义网大会。此后语义网大会每年举行一次,形成惯例。同时,HP、IBM、微软、富士通等大公司,斯坦福大学、马里兰大学、德国卡尔斯鲁厄大学、英国曼彻斯特维多利亚大学等教育机构都对语义网技术展开了广泛深入的研究,开发出了Jena、KAON、Racer、Pellet等一系列语义网技术开发应用平台、基于语义网技术的信息集成以及查询、推理和本体编辑系统。

国内语义网研究现状

 

我国也非常重视语义网的研究,早在2002年,语义网技术就被国家863计划列为重点支持项目,清华大学、东南大学、上海交通大学、北京航空航天大学和中国人民大学都是国内语义网及其相关技术的研究中心。东南大学的语义网本体映射研究有一定的国际影响,清华大学的语义网辅助本体挖掘系统SWARMS,上海交通大学的本体工程开发平台ORIENT都代表了国内语义网研发水平,时下流行的人机互动工具都是语义网络的具体应用,但是其中水平参差不齐,通过一些简单的测试就可以看出他们差异。

前景

语义网的体系结构正在建设中,当前国际范围内对此体系结构的研究还没有形成一个令人满意的严密的逻辑描述与理论体系,中国学者对该体系结构也只是在国外研究的基础上做简要的介绍,还没有形成系统的阐述。

语义网的实现需要三大关键技术的支持:XML、RDF和Ontology。可扩展标记语言可以让信息提供者根据需要,自行定义标记及属性名,从而使XML文件的结构可以复杂到任意程度。它具有良好的数据存储格式和可扩展性、高度结构化以及便于网络传输等优点,再加上其特有的NS机制及XML Schema所支持的多种数据类型与校验机制,使其成为语义网的关键技术之一。目前关于语义网关键技术的讨论主要集中在RDF和Ontology身上。

RDF是W3C组织推荐使用的用来描述资源及其之间关系的语言规范,具有简单、易扩展、开放性、易交换和易综合等特点。值得注意的是,RDF 只定义了资源的描述方式,却没有定义用哪些数据描述资源。RDF由三个部分组成:RDF Data Model、RDF Schema和RDF Syntax。

体系结构

语义网层次结构

Berners-Lee于2000年提出了语义网的体系结构,并对此做了简单的介绍。该体系结构共有七层,自下而上其各层功能逐渐增强。

第一层

第一层:字符集层。

Unicode和URI。Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。URI(Uniform Resource Identifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。在语义网体系结构中,该层是整个语义网的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。

第二层

第二层:根标记语言层。

XML+NS+xmlschema。XML是一个精简的标准通用标记语言,它综合了标准通用标记语言的丰富功能与HTML的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。NS(Name Space)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema是文档类型定义(DTD)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制。正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制,使其成为语义网体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。

第三层

第三层:资源描述框架”层。

RDF+rdfschema。RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势,进行基于Web 的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范。Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。

第四层

第四层:本体词汇层。

本体词汇,(外语:Ontology vocabulary)。该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系。

五至七层

第五至七层:Logic、Proof、Trust。Logic负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。通过Proof交换以及数字签名,建立一定的信任关系,从而证明语义网输出的可靠性以及其是否符合用户的要求。

模型定义

“资源描述框架”的数据模型外语:RDF Data Model提供了一个简单但功能强大的模型,通过资源、属性及其相应值来描述特定资源。模型定义为:

它包含一系列的节点 N;

它包含一系列属性类 P;

每一属性都有一定的取值V;

模型是一个三元组:{节点,属性类,节点或原始值V}

每一个数据模型”(外语:Data Model 可以看成是由节点和弧构成的有向图

模型中所有被描述的资源以及用来描述资源的属性值都可以看成是“节点”(Node)。由资源节点、属性类和属性值组成的一个三元组叫做RDF Statement (或RDF陈述)。在模型中,陈述既可以作为资源节点,同时也可以作为值节点出现,所以一个模型中的节点有时不止一个。这时,用来描述资源节点的值节点本身还具有属性类和值,并可以继续细化。

RDF Schema 使用一种机器可以理解的体系来定义描述资源的词汇,其功能就像一个字典,可以将其理解为大纲或规范。RDF Schema的作用是:

定义资源以及属性的类别;

定义属性所应用的资源类以及属性值的类型;

定义上述类别声明的语法;

申明一些由其它机构或组织定义的元数据标准的属性类。

RDF Schema 定义了

三个核心类:rdf:Resource、rdfs:Property、rdfs:Class;

五个核心属性:rdf:type、rdfs:subClassOf、rdfs:seeAlso、rdfs:subPropertyOf、rdfs:isDefinedBy;

四个核心约束:rdfs:ConstrantResource、rdfs:range、rdfs:ConstraintProperty、rdfs:domain。

RDF Syntax构造了一个完整的语法体系以利于计算机的自动处理,它以XML为其宿主语言,通过XML语法实现对各种元数据的集成。

Ontology (本体或本体论),原本是一个哲学上的概念,用于研究客观世界本质。目前Ontology已经被广泛应用到包括计算机科学、电子工程、远程教育、电子商务、智能检索、数据挖掘等在内的诸多领域。它是一份正式定义名词之间关系的文档或文件。一般Web上的Ontology包括分类和一套推理规则。分类,用于定义对象的类别及其之间的关系;推理规则,则提供进一步的功能,完成语义网的关键目标即“机器可理解”。本体的最终目标是“精确地表示那些隐含(或不明确的)信息”。

当前对本体的理解仍没有形成统一的定义,如本体是共享概念模型的形式化规范说明,通过概念之间的关系来描述概念的语义;本体是对概念化对象的明确表示和描述;本体是关于领域的显式的、形式化的共享概念化规范等等。但斯坦福大学的Gruber给出的定义得到了许多同行的认可,即“本体是概念化的显示规范”。概念化(外语:Conceptualization)被定义为:C =,其中C表示概念化对象,D表示一个域,W是该领域中相关事物状态的集合,Rc是域空间上的概念关系的集合。规范(外语:Specification)是为了形成对领域内概念、知识及概念间关系的统一的认识与理解,以利于共享与重用。

本体需要某种语言来对概念化进行描述,按照表示和描述的形式化的程度不同,可以将本体分为完全非形式化本体、半非形式化本体、半形式化本体和严格形式化的本体。有许多语言可用于表示Ontology,其中一些语言是基于XML语法并用于语义网的,如XOL(Xml- based Ontology exchange Language),SHOE(Simple HTML Ontology Language),OML(Ontology Markup Language)以及由W3C组织创建的RDF与RDF Schema(RDFS)。还有建立在RDF与RDFS之上的、较为完善的Ontology语言DAML(DARPA Agent Markup Language)、OIL和DAML+OIL。

XOL是一种基于XML语法和OKBC语义的本体交换语言。它由美国生物信息学术团体设计,用于其领域的一组异构软件系统间本体定义的交换,它以Ontolingua和OML作为基础,融合了OKBC的高层表达方式和OML的语法。当前还没有支持XOL本体开发的工具,但由于它采用XML语法,可以采用XML编辑器来创建XOL文件。SHOE由马里兰大学开发,它将机器可读的语义知识与HTML文档或其他Web文档相结合,允许直接在WWW的基础上设计和应用本体。近来SHOE的语法已转向XML,它使得代理(Agents)能够收集有意义的Web页面和文档的信息,改善搜索机制和知识收集。OML由Washington大学开发,部分基于SHOE。它有四个层次:OML核心层(与语言的逻辑层相关);简单OML(直接映射RDF和RDFS)、简化OML和标准OML。

RDF是W3C推荐的一种信息描述方式,目的是克服XML的语义限制,提供一种简单的模式来表示各种类型的资源。在RDF的基础上,RDFS建立了一些基本的模型限制。RDF具有较强的表达能力,但仍存在一些不足,如RDF没有定义推理和公理的机制、它没有说明包含特性以及没有版本控制等。

OIL建立在RDF之上,其主要优势在于以描述逻辑为基础,提供形式化语义的推理。OIL综合了三方面的技术:框架系统、描述逻辑和基于XML与RDF语法的Web语言。框架系统采用了一种类似于面向对象的方法对数据建模,提供建模原语;描述逻辑用规范化的方法表达结构化知识以及查询和推理;基于XML和RDF语法的Web语言为OIL提供语言元素。OIL的数据对象主要包括:类定义、槽定义(slot definition)以及公理定义(axiom)。类定义包括定义类型、类层次关系和槽约束或属性约束;槽定义定义实体间的二元关系,包括有原语slot-def,domain,rang,inverse,subslot-of等;公理定义由定义该本体内的一些附加规则,如类之间外延的关系有不相交、覆盖、相交、等价等。

DAML由DARPA(美国国防部高级计划研究署)主持开发,力图溶入包括RDF、OIL等的优点,它与OIL一样建立在RDF之上,以描述逻辑为基础。其主要目标是开发一个旨在以机器可读的方式表示语义关系、并与当前及未来技术相容的语言,尤其是开发出一套工具与技术,使得Agent(代理)程序可以识别与理解信息源,并在Agent程序之间实现基于语义的互操作。DAML的最早版本为DAML-ONT,但后来与OIL紧密结合形成了DAML+OIL。DAML+OIL是由美国和欧盟在DAML背景下共同开发的,它与OIL有着相同的目标,是目前应用最广的本体语言。它是RDF(S)基础上的扩展,具备充分的表达能力(如唯一性、传递性、逆反性、等价等),具有一定的推理能力,完全确定了语义网中知识表示语言的整体框架。

当然,要实现语义网并非仅有XML和RDF就行了。更主要的技术难题还在于要让电脑可以进行过多的“思考”和“推断”,而面对纷繁复杂的问题,尤其是社会问题,人尚且难以决断,更何况计算机呢。因此,要真正实现实用的语义网还有很多工作要做。

应用示例

目前的各种万维网技术都有可能被应用于语义网(在语义环球网的意义上),例如:

  • DOM文档对象模型,一组访问XML和HTML文档组成部分的标准接口.

  • XPath、XLink、XPointer

  • XIncludeXML fragmentXML查询语言XHTML

  • XML Schema,RDF(Resource Description Framework)

  • XSL,XSLTExtensible Stylesheet Language

  • SVG(Scalable Vector Graphic)

  • SMIL

  • SOAP

  • DTD

  • 微格式

  • 元数据概念.

研究趋势

语义网是网络时代的高级智能产物,其应用广泛,有着美好未来。下面将介绍主要应用技术与研究趋势。

经典的自底向上和新兴的自顶向下的方式。自底向上的方法关注于标注好的信息,使用RDF表示,所以这些信息是机器可读的自顶向下则着重于利用现成的页面信息,从中自动抽取出有意义的信息。近年来每一种方法都有一定的发展。自底向上的方法的一个喜讯来自于Yahoo搜索引擎支持RDF与microformats的声明。这是一个对于内容发布者、Yahoo和消费者来说三赢的举措:发布者有了标注自己信息的激励,Yahoo可以更有效地利用这些信息,用户可以得到更好、更精确的结果。另一个喜讯来自于Dapper关于提供语义网络服务的声明,这项服务可以让内容发布者给现有的网页添加语义标注。可以期待的是,这种语义工具越多,发布者标注网页就会越容易。自动标注工具的发展与标注激励的增多,会使得自底向上的方法更加引人注目。尽管工具与激励都有了,但要使得自底向上的方法流行起来还是有相当的难度。事实上,今天google的技术已经可以在一定程度上理解那些非结构化的网页信息。类似地,自顶向下的语义工具关注点在于怎样处理现有的非完美的信息。这些方法主要是利用自然语言处理的技术来进行实体的抽取,这些方法包括识别文档中特定实体(与人名、公司、地点等)的文本分析技术,以及能获取特定领域信息的垂直搜索引擎

自顶向下的技术关注于从非结构化的信息中获得知识,但它同样可以处理结构化的信息,自底向上的标注技术越多,自顶向下方法的性能就越能得到提高。在自底向上的标注方法中,有几种候选的标注技术,它们都很强大,对它们的选择需要在简单性及完全性之间作一个权衡。最完备的方法是RDF:一种强大的基于图的语言,用于表示事物、属性及事物间的关系。简单地来说,你可以认为RDF是这样的一种语言,它通过这样的方式来表达事实:Alex IS human (类型表达),Alex HAS a brain (属性表达),and Alex IS the father of Alice,Lilly,and Sofia (关系表达)。RDF很强大,但因为它是以高度递归、精确与数学化而著称的,同时它也是很复杂的。当前,大多RDF的使用都是为了解决数据的互通性。例如,医学组织使用RDF来表述染色体组数据库。因为信息被标准化了,所以,原来孤立的数据库就可以被一起查询并相互比较了。一般说来,除了语义方面的意义,RDF最主要的好处在于实现互通性与标准化,特别是对于企业来说(下文有论述)。Microfomats提供了一个简单的方法――CSS风格-―来给现有的HTML文档添加语义标记,简洁的meta数据被嵌入到原有的HTML文档中。比较流行的Microformats标签包括hCard:描述个人及公司联系信息;hReview:添加到评论页的meta信息;与hCalendar:描述事件的标签。Microformats因它的简单而得到流行,但它的能力仍然是很有限的。例如被传统的语义团体认为是很必要的层次结构的描述,它就做不到。此外,为了使得标记集最小化,难免地它们表达的意思就显得比较模糊。这就引出了另外一个问题:把标签嵌入到HTML文档中是不是一种合适的做法?然而,虽然仍存在很多的问题,Microformats还是因为它的简单而广受青睐,像Flickr,Eventful,LinkediIn及其它很多公司都在采用microformats,特别在是Yahoo的搜索声明发布之后。还有一种更为简单的方法就是把meta数据放在meta头中。这种方法已经在一定程度上被使用,可惜的是使用得还不是十分广泛。纽约时报最近为他们的新闻页面启动了一个标注扩展,这种方法的好处已经在那些主题或事件页面中显现出来。例如,一个新闻页面可以通过一组关键词来标识:地点、日期、时间、人物与类别。另一个例子是关于书的页面,已经在页面的meta头里加入了书本的信息:作者、ISBN与书的类别。尽管所有这些方法不尽相同,但相同之处是它们都是很管用的。越多的网页被标注,就会有越多的标准会被实现,同时信息也会变得更为强大与更易于得到。

关于语义网的讨论中,在用户与企业的关注点是不一样的。从消费者的立场来说,我们需要一个杀手级的应用(killer app),可以给用户传递实在而简单的价值。因为用户只会关注产品的实用性,而不会在乎它建立在什么技术之上。问题在于,直到目前为止,语义网的关注点更多的都还停留在理论层面,如标注信息以使得机器可读。我们可以给出这样的承诺:一但信息都被标注,网络就会变成一个大型的RDF数据库,大量激动人心的应用也会应运而生。但也有怀疑者指出,首先你必须得达成那样的假设。

已经有很多基于语义网的应用,如通用及垂直搜索引擎、文本助理工具、个人信息管理系统、语义浏览工具等等,但在它们为大众所接受之前,还有很长的路要走。即便这些技术成功了,用户也不会有兴趣知道那背后使用了些什么技术。所以说在用户层面推广语义网技术是没什么前景的。

企业就不一样了,第一,企业比较习惯于技术方面的论调,对于它们来说,利用语义技术可以增加产品的智能程度,从而形成市场价值。“我们的产品更好更聪明,因为我们使用语义网”,听起来这对企业来说是一个很不错的宣传。

从企业层面来说,RDF解决了数据的互通性标准的问题。这个问题其实在软件行业的早期便已出现,你可以忘掉语义网,只把它看作是一个标准协议,一个使得两个程序可以互通信息的标准。这对企业来说无疑是极具价值的。RDF提供了一个基于XML的通讯方案,它所描述的前景使得企业并不在乎它的复杂性。但还存在着一个扩展性的问题,跟已经普及优化的关系型数据库不同,基于XML的数据库并没有普及,这归咎于其可扩展性与查询能力。就像九十年代末的对象数据库一样,基于XML的数据库承载了太多的期望,让我们拭目以待。

语义API是随着语义网的发展而发展的,这类网络服务以非结构化的文本作为输入,输出一些实体与关系。例如路透社的Open Calais API,这项服务接受原始文本的输入,返回文本中的人名、地点、公司等信息,并在原文中加以标注。另一个例子是TextWise的Hacker API,该公司还提供了一百万美元的悬赏,以奖励基于它的API的最好的商业语义网应用。这个API可以把文档中的信息分为不同的类别(称为语义指纹),输出文档中的实体与主题。这点和Calais的很相似,但它还提供了一个主题的层次结构,文档中的实际对象是结构中的叶节点。再一个例子来自于Dapper,那是一个有助于从无结构的HTML页面提取结构化信息的网络服务。Dapper的工作依赖于用户在页面上为对象定义一些属性,比如,一个图片出版商会定义作者、ISBN和页数的信息在哪里,然后Dapper应用就可以为该站点创建一个识别器,之后就可以通过API来读取它的信息。从技术的角度来看,这似乎是个倒退,但实际上Dapper的技术在实际当中非常有用。举个典型的情景为例,对于一个并没有专门API可以读取其信息的网站,即便是一个不懂得技术的人都可以在短时间内用Dapper来构造一个API。这是最强大、最快捷的把网站变为网络服务的途径。

可能语义网发展的最初动机就是因为很久以来搜索的质量都已经很难再得到提升。关于对页面语义的理解能提高搜索质量这一点假设也已经被证实。语义网搜索两个主要的竞争者Hakia与PowerSet都已经做出不少的进步,但仍然不足够。因为,基于统计的google算法,在处理人物、城市与公司等实体时表现得与语义技术同样的好。当你提问“法国总统是谁”时,它能返回一个足够好的答案。越来越多人意识到对搜索技术边缘化的改进是很难击败google的,因而转向寻找语义网的杀手级应用。很有可能,理解语义对于搜索引擎是有帮助的,但就此并不足以构建一个更好的搜索引擎。充分结合语义、新颖的展示方式与对用户的识别能提升下一代搜索引擎的搜索体验。另有一些方法试图在搜索结果上应用语义。Google也在尝试把搜索结果分为不同的类别,用户可以决定他们对哪些类别感兴趣。搜索是一场竞赛,很多语义公司都在追逐其中。也许会有另一种提高搜索质量的可能:文本处理技术与语义数据库的结合。下面我们即将谈到。我们已经看到越来越多的文本处理工具进入消费市场。像Snap、Yahoo Shortcuts或SmartLinks那样的文本导航应用可以“理解”文本与链接中的对象,并附加相应的信息于其上。其结果是用户根本不需要搜索就可以得到对信息的理解。让我们想得更远一些,文本工具使用语义的方式可以更为有趣。文本工具不再解析用户在搜索框里输入的关键词,而是依赖于对网络文档的分析。这样对语义的理解会更为精确,或者说减少猜测性。随后文本工具给用户提供几类相关的结果供选择。这种方式从根本上不同于传统的把大量文档中得到的正确结果一起堆放在用户面前的方式。同样有越来越多的文本处理工具跟浏览器结合起来。自顶向下的语义技术不需要发布者做任何事情,因而可以想像上下文、文本工具可以结合在浏览器里。Firefox的推荐扩展页里提供了很多的文本浏览解决方案,如Interclue,ThumbStrips,Cooliris与BlueOrganizer等。

语义数据库是标注型语义网应用的一个发展方向。Twine正在beta测试阶段,它着眼于建立一个关于人物、公司、事件、地点的私人知识库,数据来源为各类论坛的非结构化内容,这些内容可通过书签、邮件或手工的方式进行提交。这项技术仍有待成熟,但它所能带来的好处显而易见。可以意想的一个基于Twine的应用为个性化的搜索,通过个人的知识库来对搜索结果进行过滤。Twine底层的数据表示方式是RDF,可以开放给其它的语义网络服务所采用,但其核心的算法,如实体提取是通过语义API的方式商业化的。路透社也提供了类似的API接口。另外一个语义数据库的先行者是一家叫Metaweb的公司,它的产品的Freebase。从它所展现的形式来看,Freebase只是一个基于RDF的更结构化的wikipedia翻版。但是Freebase的目标是建立一个像wikipedia那样的世界信息库,这个信息库的强大之处在于它可以进行精确的查询(就像关系型数据库那样)。所以它的前景依然是更好的搜索。但问题在于,Freebase怎样保持与世界信息同步俱进?google每天对网络文档进行索引,可以随着网络发展而发展。Freebase现在的信息仅来自于个人编辑及从wikipedia或其它数据库中抓回的数据。如果要扩展这个产品,就必须完善从全网络获取非结构化信息、解析并更新数据库这一处理流程。保持与世界同步这一问题对所有数据库方法都是一种挑战。对于Twine来说,需要有不断的用户数据加入,而对于Freebase来说,则需要有来自不断的来自网络的数据加入。这些问题解决起来并不简单,在真正实用之前都必须要有一个妥善的处理。所有新技术的出现都需要定义一些概念和得到一些类别。语义网提供了一个很激动人心的前景:提高信息的可发现性,实现复杂的搜索,新颖的网络浏览方式。此外语义网对不同的人有不同的意义,它对于企业和对于消费者的定义是不同的,在自顶向下VS自底向上,microformats VS RDF等不同类型中也有不同的含义。除了这些模式,我们也看到了语义API与文本浏览工具的发展。所有的这些都还处于其早期发展阶段,但都承载着改变我们与网络信息交互方式的期望。

语义网的高级阶段使得图书馆,售订票系统,客户管理系统,决策系统均能发挥很好的效果。譬如要出去旅行,只要把具体时间要求与自己喜爱的国内旅游类型提供给语义网支持的查询系统,那么很快相应的国内景点,最佳旅游方案与注意事项,提示以及旅行社的评价均能很快速得准备在浏览器页面上。

语义网终会把网络的高级阶段应用到世界的每一个角落,每个人均有自己的网络IP一样的身份证明.个人消费信用、医疗、档案等等全在自己的网络身份里面。同时网络社区更比现实社区更有活跃力,网络社会更有秩序、更和谐。

参考资料

  • 9
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python可以使用多种库和工具来构建语义络。其中,最常用的是使用自然语言处理(NLP)库和图数据库。 1. 使用自然语言处理库: - NLTK(Natural Language Toolkit):NLTK是一个广泛使用的Python库,提供了各种NLP功能,包括分词、词性标注、命名实体识别等。可以使用NLTK来处理文本数据,并从中提取语义信息。 - spaCy:spaCy是另一个流行的NLP库,提供了高效的文本处理和语义分析功能。它支持多种语言,并且具有快速的性能和丰富的功能集。 2. 使用图数据库: - Neo4j:Neo4j是一个流行的图数据库,可以用于存储和查询语义络。它使用图形结构来表示实体和它们之间的关系,并提供了强大的查询语言(Cypher)来检索和分析数据。 - NetworkX:NetworkX是一个Python库,用于创建、操作和研究复杂络结构。它提供了各种算法和函数,用于构建和分析语义络。 构建语义络的一般步骤如下: 1. 数据预处理:使用NLP库对文本数据进行预处理,包括分词、词性标注、命名实体识别等。 2. 实体抽取:从预处理的文本中提取出实体,例如人名、地名、组织机构等。 3. 关系抽取:根据文本中的语义关系,提取出实体之间的关系,例如“工作于”、“属于”等。 4. 构建图结构:使用图数据库或图库创建图结构,并将实体和关系作为节点和边添加到图中。 5. 查询和分析:使用图数据库的查询语言或图库的算法和函数进行查询和分析,例如查找两个实体之间的最短路径、计算节点的中心性等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值