本体库的建立与标注

 本观点:本体的建立及本体库的标注问题;
在本体的建模阶段,大部分的建模工作都集中在领域知识的抽象表示上,即发现领域内的概念、概念的继承层次、潜在的关系和公理等。对于领域中的实例,在建模时一般不需要考虑它们,除非建模时就能确定该本体所涉及的所有实例。实际上,通常的本体都具有一定的通用性,表示特定领域内的知识,但由于领域内可能的实例数目无穷无尽且动态变化,因此,只有本体和一个具体的应用结合时考虑实例才有意义。将现实应用中涉及的实例和抽象的本体概念相联系,这正是语义标注(Semantic Annotation)所要做的工作。和数据库类比,语义标注就如同为建立好的数据库表添加具体的纪录。


从语义Web的角度来看,在传统Web上添加语义信息,将Web的状态从机器可读提高到机器可理解,这是整个语义Web实现的基础。通常,这种语义信息的添加是基于本体进行的,称之为语义标注。语义标注将推动语义Web走向实际应用,智能Agent能够根据Web上的语义信息实现智能推理任务,并能提高信息检索的精确性。
如果将本体看作简化了的知识库,那么从本体的角度来看,添加实例,即进行语义标注,可视为丰富本体的过程。如果站在语义Web的角度来看,语义标注便是语义信息的发布过程:用户依据一定的本体,为页面添加语义信息。然而,语义Web中的标注问题由于受到多方面因素的影响,变得很复杂。一部分人希望语义Web上的语义信息能像页面本身的创建一样,由用户来完成,因为任何机构都不可能完成如此庞大的语义标注任务。这样一来,任何用户都能够选择或创建自己喜好的本体,并利用它们来标注页面。这些本体的规模通常是小型的。目前的很多研究者都支持这种观点,它们认为语义Web将建立在无数的小本体之上,正如Rousset在ISWC2004大会上的特邀演讲中所说的:“Small can be beautiful in the Semantic Web”[Rou04]。但这种观点的缺点也很明显:大量的小本体往往是异构的,这将造成在使用语义信息的过程中需要频繁执行处理本体异构的操作,给应用系统带来沉重的负担。为了克服第一种观点的缺陷,一部分人希望某些大型的机构能提供一些权威而通用的大本体,让用户在标注的过程中使用。但这样做也同样会导致很多问题:首先,本体的提供者如果被少数机构垄断,那将大大限制了用户表达自己思想的自由,Web从此失去了它与生俱来的自由本质;其次,目前的研究已经表明,创建涵盖人类多个方面知识的大规模本体极其困难,而又要让这样的本体得到Web用户的公认,这个目标更难以达到;最后,也是最重要的问题是:什么机构或组织能提供这样的本体呢?W3C还是ISO?Google还是Yahoo?美国国家标准局还是中国国家标准局?这种本体的标准之争必然会涉及到不同国度、历史背景和文化,很难有一个最终的结果。在我们看来,上述两种观点都过于极端,切实可行的标注方案应该是二者的折中,既要保证标注的本体具有一定的通用性,又要保证它能满足用户的要求。涉及专业领域的本体可由领域中的权威机构统一制定,如医学中的UMLS本体,而涉及文化冲突的本体制定时可以考虑多个版本。因此,对语义Web来说,语义标注不仅仅是一种技术,更是一种文化。
语义标注技术也碰到了经典的“鸡与蛋”的问题:一方面通常的网页创建者很不愿意为创作的网页内容提供语义标注,除非他亲自感受到那样做所带来的巨大好处;另一方面只有大规模的语义标注数据存在,并在Web上实现优于现有技术或现有技术不能解决的应用,才可能有更多人或团体愿意提供语义标注。最后,在语义标注过程中通常既要保证个人的观点,又要比较权威的专家的意见,而且还需要大量本体来满足不同用户的需求;某些用户仅希望通过标注来更快地找到标注对象所对应的网站,而那些本身知道链接的高层用户还要求进一步获得关于标注对象的更精确的描述。
作为语义Web的基础,很多研究机构都对其进行了深入的研究,但并没有取得根本性的进展。至今,语义标注仍然是语义Web实现的瓶颈问题。
------------------------------------------------------------------------------
本观点: 本体的建立未必需要统一的标准,具体应该针对具体的应用场景;
就如各种软件,各种数据库很多内容不被共享,很多本体也不是为了通用而建立的。大家有了一个具体的项目,如果使用本体会有比较好的效率,才会去建立这么一个领域专用本体。我发现国内的研究人员存在空空地去建立一个本体,然后为这个本体去寻找一个用途,基本上是本末倒置了。所以才会出现楼上朋友的问题。

本体的建立,本来大家就各建各的。就如中国人看中文网页,美国人看英文网页道理一样,没有必要做到统一的标准。也没有听说网页的设计,软件的设计要有严格统一的标准咯。只要有统一的语言和正确的过程,就可以了。

本体研究很注重规模效应,一个学校几个人小打小闹根本不会出好成果。一个实验室几十人几百万的年投入才可能。这种除了国家重点实验室,国内还没有这个条件。说到底,构建本体,本题标注等等技术和理论都不是瓶颈,瓶颈在钱。protege为什么能流行最广,德国的KAON却不行,还不是开发protege的几所实验室财力雄厚?
------------------------------------------------------------------------------
本观点:涉及本体的多语言实现问题;
本体建立应该说可以分成自顶向下和自底向上两种,两者各有优势。
但是似乎目前更多的做法是自顶向下的,就是先建顶层本体,在一步步扩展,直到领域应用所需要的本体。

同时我还认为本体与语言还不一样,语言可能有不同的语言的差别,但是本体应该是概念的表达,是独立于语言的更为本质的东西。所以在建立本体时对概念应该先给它一个URI,然后指出某种语言称这个概念为“……”。

比如说要表达 人 这个概念,我们可以先为它制定一个URI“http://www.pp.pp#person”,然后将其属性“EnglishName”设为“person”,属性“中文名”设为“人”。
这样以后才能真正的建立一个广泛的可共享的概念体系:这时候我们如果需要检索“人”这个概念的时候,可以检索出使用不同语言标注出来的信息,也可以使用任何一种语言进行检索。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值