知识图谱初步学习(零)——本体是什么

本文介绍了本体的起源,从哲学层面的本体论到语义网中的本体概念。本体是共享概念模型,涉及术语、关系和明确的定义,常用于语义网中的知识表示。通过语义三角形,阐述了符号、概念和指称之间的关系。本体在标准化和知识组织中起到关键作用,可用于语义推理和信息检索。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

知识图谱初步学习(零)——本体是什么

前言

之前一直稀里糊涂的学习本体,还没有明白本体到底是什么东西,今天详细记录一下什么是本体,若有不对之处还请各位指正。

一、 哲学层面理解

本体(Ontology) 的概念最早起源于哲学领域,是哲学家用来探讨世界本源的一种理论思路。本体’这个概念在哲学层面上是形而上的(本体应该是稳定的,不能轻易变化),是只可意会不可言传的,因为所有的描述都成为了“本体的外在符号",我们世界上的所有图像语言、我们看到的、听到的、感受到的,都成为符号到本体的某种映射。它研究何物存在以及以何种方式存在等问题。
例如:水是有液体固体和气体三种形态,但是不管在什么状态下水也就是水分子构成的,水分子又是氢原子和氧原子构成的,于是我们可以说:水的本体都是氢元素和氧元素的组成。依次往下推氢原子和氧原子的本体是质子中子和电子…直到夸克不能再往下细分了。
那么能否直接说水的本体就是夸克呢?显然是不能的。本体不能跨级。按照逻辑学中的关系的传递性来说关系有时候是反传递性的,举个例子:老明是小明的爸爸,小明是小关的爸爸,那么老明是小关的爸爸,显然是不对的。
水的本体
如:苹果的图片,苹果,apple这三个都是符号。但是现实中实实在在的苹果这个事物,就是亚里士多德口中的“实
体”,巴门尼德口中的“存在”,和本体论中所说的“本体”。
概念三角形
根据概念三角形可以将苹果表示成如下的图:(中间的是虚线,画错了)
在这里插入图片描述

二、 引申到语义层面理解

如:把{“THU”,“Tsinghua”, “Tsinghua University”,“清华”,“清华大学”}这个符号集都映射到“清华大学”这个“本体”上来。(可以理解为都是映射到本体的符号的集合)再深一层,我们建立了本体的集合,就可以去发掘本体之间深层的关系(映射的本体和符号之间的关系),有可能是“属性-本体”的关系,有可能是“子类-本体”的关系,也有可能是“本体-本体”的对立或者是近似关系。描述语义层面的本体关系的语言就是RDF和OWL等。
再深一层的话,在建立好本体之间的关系之后能干什么呢?我们就可以进行语义层面上的推理,推理的结果可以映射回语言层面形成新的组合。
举个例子:
我们把各民族表示苹果的语言,都映射到“苹果”这个本体上,这是第一步本体映射;
苹果这个“本体”可以跟“名词主体”建立隶属关系,这是第二步建立本体之间的逻辑关系;
“名词主体”可以跟在“动词主体”之后,形成动宾结构,我们在这个动宾结构之上,经过反映射,就可以实现各语种之间的翻译,这是逻辑推理和实际应用。

三、学术层面

学术层面:本体是共享概念模型的形式化、规范、明确的说明。
这是最常见的定义。这里的说明可以理解成符号的意思。概念模型不单单是概念,还包括了概念之间的关系组成的一个系统。
这个定义包含了四个方面:共享(share) 、概念化(Conceptualization) 、 形式化(Formal) 、明确(Explicit),
下面对这4个分别介绍:
共享:是这个领域公认的术语组成的集合。(被大家都认可的, 大家都可以用的,比如图书分类法)
概念化:指本体对事物的描述所形成了-组组的概念。(本体能 够反映事物的特有属性和范围的。(逻 辑中概念的
定义) )
明确性:指本体中的术语、属性和定理都是有明确的定义,不是模棱两可的。(确定的, 唯一-的, 非矛盾的)
形式化:指本体能够被计算机可读,能够被计算机所处理。(形 式逻辑里面的形式)

四、其他层面

其他层面:一种描述术语及术语间关系(描述苹果、香蕉、水果之间的关系)的概念模型。

- 术语

该术语包含了哪些词汇(逻辑学中的外延)术语之间的关系 (逻辑学中的矛盾、反对、包含、全同、互异、差等关系…)

本体可以简单也可以复杂。如:最简单的词汇表(只定义术语集合,不定义术语之间的关系)也可以看成是一种“本体”;但严格意义上的本体,是既定义了术语、也定义了术语之间关系的。生活中,最常见、最成熟的本体,就属图书馆里的图书分类法了。
本体,以图书分类法为例, 一方面限定了术语集合 (即规定大家必须采用共同承认的一套词汇,禁止私自发明新词),另-方面定义术语之间的上下位关系(如: 计算机技术隶属于工业技术,软件技术隶属于计算机技术,等等)。只要大家都认同该本体,并在实践中长期遵守该本体,依照它来编排和索引书目,那么日后寻找一本书就会非常方便。通过这个简单的例子,我们可以发现,本体在实践中非常重要的一点就是:认同(专 业术语称为ontology commitment)。从这点来说,本体一定意义上起到了是标准化的作用。另一点很重要的就是:**本体应该是稳定的,不能轻易变化。**由本体演化引入的更新代价将是巨大、甚至是灾难性的! (比如:图 书分类如果迭代了更新可能会让人们很难找到自己想要的书籍。)

- 语义网

(Semantic Web)中的本体(尤其是在学术界)常常有所特指,通常大家认为Semantic Web中的本体是用RDFS或OWL描述的本体。RDFS、OWL可以表达比前面提到的图书分类更复杂的本体,比如定义同义词、反义词,对属性的值域施加约束(限 制事物之间的关系进一步延伸。) 等等。

五、本体与类、本源、实体、符号的区别

  • 本体与类的区别:类:具有相同属性的事物。类的分子:组成某类的个别事物。
    本体包括类,类是本体中的一部分,本体不仅包括类,还包括类与类、实例与实例、属性与属性之间的关系。简而言之:“本体有关系,类没有。”见其他层面的本体定义。
  • 本体与本源:本源主要说明的是事物基质和元素的来源,以及作为原初物的“母体”性的存在。 本体是形而上的抽象概念,类似于本原,但比本原更为普遍化,任何事物都能抽象出本体的存在,事物映射成为本体的外在符号。本体也就是存在本身,亚里士多德称为本体。
  • 本体与实体的区别: 实体是概念具象化之后的产物。
  • 本体与符号的区别: 现实世界里我手里拿着一个实实在在的苹果,这就是本体,但是我如果去描述它就成了符号,比如用中文“苹果"、英文apple.那么它(“苹果”, "apple’ 还是指这个实实在在的苹果? )就是符号。你一旦试图描述它,任何描述的东西都是符号。
  • 本体只有一个吗?否,比如苹果的本体和飞机的本体当然是不同的本体,但本体之间的关系的研究也是非常重要的,虽然苹果的本体和飞机的本体是不同的,但都可以归类到物品的分类中,当然不同本体还有不同的属性,这些都是本体论的研究范畴。

六、用语义三角形理解本体

- 术语

在特定专业学科领域用来表示概念的称谓的集合。(表示专业领域词汇的集合)词汇还是词汇表? (无关系)

- 词汇表

收录某些专业学科的语词、术语和短语,按照一定顺序排列,有的还给出简单释义或对等词的词汇集。通常有单语、双语、多语之分。词汇:①一种语言中所有的词以及固定结构(set phrase),如成语、惯用语的总汇。②一定用语范围内的词语总和。

- 叙词表

(有关系) 例子?叙词表又称为,它是一种语义词典,由术语及术语之间的各种关系主题词表构成,能反映某学科领域的语义相关概念。

- 叙词表与本体的二者区别?

叙词表中只包含“用、代、属、分、参、族"这样的简单的语义关系。而ontology中概念间的关系,则被描述得更为广泛深入、细致和全面。这是二者的最主要区别,也是为什么基于ontology的系统可以实现语义检索和半自然语言、乃至自然语言检索功能的奧妙所在。来源:《叙词表与本体的区别》

- 语义:词语的含义。

在这里插入图片描述

- 语义三角形

语义三角形也叫概念三角形,这就是理论上的本体。本体核心问题就是概念化,语言三角形就是对概念和指称进行定义的,本体构建的时候本体里面的东西其实都不是概念,而是符号。

语义三角形图如下:
在这里插入图片描述

为什么中间是虚线呢?
这个虚线的箭头叫做指称指称就是指代概念的一个名称,这个术语代表的不是这个事物本身,而是代指这个事物的概念,也可以理解成符号。
比如我叫小明,那能说小明就是我吗,不能,因为小明这2个字就是一个符号,并不能代替小明这个人,还有好多叫这个名字的,小明这是一个单独的概念,有自己的外延和内涵,是独一无二的,所以这里面的虚线只是一个指称,而不是实指。

七、 总结

总而言之,本体的核心问题就是概念化,构建本体的时候里面的一个个不是概念而是符号,本体不仅包括类,概念,还包括类与类之间的关系,概念和概念的关系(概念模型),类的属性等。本体包含了公认术语组成的一个集合,是可以共享的,比如图书馆图书分类;本体又是形式化的,指代的是事物的符号,同时也是被计算机可读的;本体是明确的,不可能一个事物有多个本体,本体不是模棱两可的。所以说本体是共享概念模型的形式化、规范、明确的说明。
可以记成:“共盖姓名龟”。先想本体就像一个(盖)念模型,不仅有概念还有概念之间的关系构成了一个系统就是概念模型,这个模型是享(共)的,本体就是起到了一个标准化的作用,标准化就需要式化,确化(姓名)的说明。

### 构建细粒度本体的方法 #### 方法概述 构建细粒度本体涉及多个方面的工作,包括但不限于概念抽取、关系识别以及属性定义。对于知识图谱来说,自底向上和自顶向下两种方式均可适用,具体取决于应用场景的需求[^1]。 #### 自底向上的方法 这种方法侧重于从现有数据源中自动发现并提炼出构成知识图谱的核心要素——即实体及其间的关系。通过自然语言处理技术解析大量文本资料或其他形式的数据集,进而归纳总结出一系列高度专业化且细致入微的概念类别,并建立它们之间复杂的关联模式。此过程中会特别关注那些能反映特定领域特征的信息单元,从而确保最终形成的本体具备足够的精确性和代表性[^3]。 #### 自顶向下的方法 相比之下,当针对某一专门领域创建知识图谱时,则更倾向于采取顶层设计思路来进行本体建设工作。这意味着先由专家团队基于对该行业的深刻理解制定一套全面而严谨的概念框架体系作为指导原则,在此基础上再逐步填充具体的实例对象及相关联接细节。这种方式有助于维持整个架构的一致性与逻辑连贯性,同时也便于后期维护更新操作。 #### 细粒度特性实现 为了达到更高的颗粒度水平,无论是哪种路径都离不开对原始素材深入挖掘的能力。一方面要利用先进的算法模型去捕捉更加细微的区别之处;另一方面也要重视人工校验环节的作用,确保机器学习成果符合实际情况的要求。此外,还需引入外部权威资源辅助验证内部生成的内容准确性,比如借助医学典籍来确认病症表述是否恰当等[^2]。 ```python from sklearn.feature_extraction.text import TfidfVectorizer import spacy def extract_concepts(documents): vectorizer = TfidfVectorizer(stop_words='english') X = vectorizer.fit_transform(documents) nlp = spacy.load('en_core_web_sm') concepts = [] for doc in documents: parsed_doc = nlp(doc) entities = [(ent.text, ent.label_) for ent in parsed_doc.ents] concepts.extend(entities) return list(set(concepts)) ``` 上述代码展示了如何使用TF-IDF算法结合SpaCy库进行初步的概念提取,这是构建细粒度本体的一个重要步骤之一。 #### 工具支持 目前市面上存在多种成熟的软件平台可以帮助完成这项任务,例如Protégé就是一个广泛使用的开源编辑器,它允许用户直观地设计自己的本体结构,并提供了一系列插件扩展功能以满足不同场景下特殊需求。另外还有Web Ontology Language (OWL)这样的标准化语言可以用来表达更为复杂精细的语义信息[^4]。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

微莱羽墨

感谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值