语义网基础教程 (第一版) 1 语义网概览

第一章 语义网概览

       基于关键词的搜索引擎,是使用现有万维网的主要工具。毫无疑问,假如没有这些搜索引擎,万维网不会取得现在这么大的成功。然而,搜索引擎的使用也存在一些严重的问题:

(1)高匹配、低精度。即使搜到了主要相关页面,但它们与同时搜到的28758个低相关或不相关页面混在一起,检索的效果就很差。太多和太少一样令人不满意。

(2)低匹配或无匹配。有时用户得不到任何搜索结果,或者漏掉了一些重要的相关页面。虽然对于现在的搜索引擎来说,这种情况发生的频率不高,但确实会出现。

(3)检索结果对词汇高度敏感。使用最初填写的关键词往往不能得到想要的结果,因为相关的文档里使用了与检索关键词不一样的术语。这当然令人不满意,因为语义上相似的查询理应返回相似的结果。

(4)检索结果是单一的网页。如果所需要的信息分布在不同的文档中,则用户必须给出多个查询来收集相关的页面,然后自己提取这些页面中的相关信息并组织成一个整体。

        语义网运动由---万维网联盟(W3C)发起,其倡导者正是在20世纪80年代后期发明万维网的Tim Berners-Lee。他期望通过这场运动来实现他的万维网初始蓝图,在这个蓝图中信息含义所起的作用比现今万维网中重要得多。

从当前万维网到语义网:实例分析

        知识管理:在一个组织中获取、处理和维护知识。目前大多数可用信息只具有弱结构组织形式,如文本、音频和视频等。从知识管理的角度来说,现有技术存在以下诸方面的局限:信息搜索(基于关键词的)、信息抽取(需要人工浏览文档,以便从中找出相关的信息)、信息维护(如术语的不相容性和无法移除过时信息等等)、信息挖掘(对于分布式的、弱结构化的文档集合)、信息视图(视图意味着隐藏某些信息)

        语义网的目的是允许更高级的知识管理系统,使得:可以根据含义用概念空间组织知识;具备相容性检查和新知识提取功能的自动工具支持知识维护;问答系统取代关键词搜索(用人性化的方式检索、提取和表示所需知识);支持跨文档的问答功能;能够规定用户察看信息的指定部分(甚至文档的某些部分)的权限。

        企业对个人电子商务(B2C):理想情况是用户可以收集所有网上商店的信息,从而选择最好的产品。但手工太费时间,通常用户要访问一个或几个网上商店。为了改善这种情形,软件代理software agent(购物机器人)能够访问多家商店、提取产品和价格信息、汇总市场情况。

       企业对企业电子商务(B2B):网络技术的最大经济价值体现在企业对企业电子商务中。语义网的实现将使企业间的合作不需要太大的开销。借助于标准的抽象领域模型可以消除术语差异,实现用不同术语书写的文档之间的翻译转换,从而实现数据交换。拍卖、协商和草拟合同将由软件代理自动(或半自动)地完成。

       个人代理:未来的展望。

语义网技术

      显示的元数据: 如果用更适合的语言取代HTML,用它们编写的网页就可以更好地表达其内容。虽然XML本身对于实现语义网蓝图来说是不充分的,但它是重要的第一步。XML和RDF是当前与语义网相关的W3C标准。

      本体:在哲学中,本体论是形而上学的一个分支,研究存在的本质,即什么是最一般意义上真实存在的,以及如何描述它们。本体可用于网站的组织和导航,现在很多网站在页面左边列出了概念层次结构中最高层的术语,用户可以点击其中之一来浏览相关子目录。本体也可用于提高网络搜索的精确度。搜索引擎可以精确地根据本体中的概念查找相关页面,而不是收集所有出现某些关键词的页面。这样一来,在查询和网页中存在的术语差异就可以消除了。

      在AI领域,开发和使用本体语言是一个长期的传统,语义网研究可以在此基础上进一步推进。目前网络领域中最重要的本体语言如下:XML为结构化文档提供一种表层语法,但没有对这些文档的含义提供语义约束;XML Schema是一种定义XML文档结构的语言;RDF是一种描述对象(“资源”)和对象间关系的数据模型,并为这种数据模型提供一个简单的语义,这些数据模型可以用XML语法来表示;RDF Schema是一种刻画RDF资源的属性和类的词汇描述语言,带有关于这些属性和类的一般-特殊关系的层次结构语义;OWL是一个更丰富的词汇描述语言,可以刻画诸如类间关系(如不相交性)、类的基数(如“恰有一个”)、相等、更丰富的属性类型、属性的特征(如对称性)和枚举类等。

       逻辑:研究推理原理的学科,提供了表示知识的形式语言,提供易于理解的形式语义,可以借助自动推理机从给定的知识演绎(推导)出一些结论,从而使隐含的知识外显出来。这样的推理机在人工智能中得到了广泛的研究。逻辑可以用来推出被隐式表达的本体知识,这样做也有助于发现意料之外的关系和不相容性。

       代理:能够自主地和主动地运作的软件。其概念来源于面向对象程序设计和基于组件的软件开发。值得注意的是,代理将不会取代语义网上的人类用户,也不是非得有它们来做决定。在很多情况下,它们的作用是收集和整理信息,为用户提供备选方案。例如,你的个人代理所做的工作是提供它能够找到的两个最好的解决方案,而一个旅行代理则可以根据用户偏好寻找合适的旅游线路。技术:使用元数据从网络资源识别和提取信息;使用本体辅助网络搜索,解释检索到的信息,并与其他代理进行交流;用逻辑处理检索到的信息并推导结论。

语义网和人工智能的区别

       如果说人工智能的最终目标是建造出呈现人类或更高级智能的智能代理的话,那么语义网的目标是协助人类用户处理网上的日常事务。显然,语义网将广泛地利用现有人工智能技术,而这些技术的进步将促进语义网的发展。但是,并不需要等到人工智能达到很高的成就,现有人工智能技术已足以帮助语义网向其蓝图前进很大一步了。

语义网的逐层递进

       一般情况下,会有多个团队沿着不同方向研究同一个问题,由此产生的不同想法之间的竞争是科学发张的主要驱动力。但是,从工程角度看问题,标准化是必要的。一个标准一旦建立,更多团体和公司就会采纳它,而不会继续观望哪个研究方案将最终胜出。语义网的本性促使公司和个人用户必须采取行动---开发工具、添加内容和使用这些内容,而不能坐等语义网蓝图的全部实现(可能还需要十年左右的试讲)。要在语义网的某一层上搭建更高一层,应该遵循两个原则:向下可兼容性;向上部分可理解性。






  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值