知识图谱初步学习（零）——本体是什么

最新推荐文章于 2025-03-25 07:00:00 发布

微莱羽墨

最新推荐文章于 2025-03-25 07:00:00 发布

阅读量9.4k

点赞数 15

分类专栏：知识图谱文章标签：本体知识图谱

本文链接：https://blog.csdn.net/qq_43654669/article/details/119887500

版权

知识图谱专栏收录该内容

6 篇文章

订阅专栏

本文介绍了本体的起源，从哲学层面的本体论到语义网中的本体概念。本体是共享概念模型，涉及术语、关系和明确的定义，常用于语义网中的知识表示。通过语义三角形，阐述了符号、概念和指称之间的关系。本体在标准化和知识组织中起到关键作用，可用于语义推理和信息检索。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

知识图谱初步学习（零）——本体是什么

文章目录

- 知识图谱初步学习（零）——本体是什么

前言

之前一直稀里糊涂的学习本体，还没有明白本体到底是什么东西，今天详细记录一下什么是本体，若有不对之处还请各位指正。

一、哲学层面理解

本体(Ontology) 的概念最早起源于哲学领域，是哲学家用来探讨世界本源的一种理论思路。本体’这个概念在哲学层面上是形而上的(本体应该是稳定的，不能轻易变化)，是只可意会不可言传的，因为所有的描述都成为了“本体的外在符号"，我们世界上的所有图像语言、我们看到的、听到的、感受到的，都成为符号到本体的某种映射。它研究何物存在以及以何种方式存在等问题。
例如：水是有液体固体和气体三种形态，但是不管在什么状态下水也就是水分子构成的，水分子又是氢原子和氧原子构成的，于是我们可以说：水的本体都是氢元素和氧元素的组成。依次往下推氢原子和氧原子的本体是质子中子和电子…直到夸克不能再往下细分了。
那么能否直接说水的本体就是夸克呢？显然是不能的。本体不能跨级。按照逻辑学中的关系的传递性来说关系有时候是反传递性的，举个例子：老明是小明的爸爸，小明是小关的爸爸，那么老明是小关的爸爸，显然是不对的。

如:苹果的图片，苹果，apple这三个都是符号。但是现实中实实在在的苹果这个事物，就是亚里士多德口中的“实
体”，巴门尼德口中的“存在”，和本体论中所说的“本体”。

根据概念三角形可以将苹果表示成如下的图：（中间的是虚线，画错了）
在这里插入图片描述

二、引申到语义层面理解

如：把{“THU”,“Tsinghua”, “Tsinghua University”，“清华”,“清华大学”}这个符号集都映射到“清华大学”这个“本体”上来。（可以理解为都是映射到本体的符号的集合）再深一层，我们建立了本体的集合，就可以去发掘本体之间深层的关系（映射的本体和符号之间的关系），有可能是“属性-本体”的关系，有可能是“子类-本体”的关系，也有可能是“本体-本体”的对立或者是近似关系。描述语义层面的本体关系的语言就是RDF和OWL等。
再深一层的话，在建立好本体之间的关系之后能干什么呢？我们就可以进行语义层面上的推理，推理的结果可以映射回语言层面形成新的组合。
举个例子：
我们把各民族表示苹果的语言，都映射到“苹果”这个本体上，这是第一步本体映射；
苹果这个“本体”可以跟“名词主体”建立隶属关系，这是第二步建立本体之间的逻辑关系；
“名词主体”可以跟在“动词主体”之后，形成动宾结构，我们在这个动宾结构之上，经过反映射，就可以实现各语种之间的翻译，这是逻辑推理和实际应用。

三、学术层面

学术层面:本体是共享概念模型的形式化、规范、明确的说明。
这是最常见的定义。这里的说明可以理解成符号的意思。概念模型不单单是概念，还包括了概念之间的关系组成的一个系统。
这个定义包含了四个方面:共享(share) 、概念化(Conceptualization) 、形式化(Formal) 、明确(Explicit),
下面对这4个分别介绍:
共享:是这个领域公认的术语组成的集合。(被大家都认可的，大家都可以用的，比如图书分类法)
概念化:指本体对事物的描述所形成了-组组的概念。(本体能够反映事物的特有属性和范围的。(逻辑中概念的
定义) )
明确性:指本体中的术语、属性和定理都是有明确的定义，不是模棱两可的。(确定的，唯一-的，非矛盾的)
形式化:指本体能够被计算机可读，能够被计算机所处理。(形式逻辑里面的形式)

四、其他层面

其他层面:一种描述术语及术语间关系(描述苹果、香蕉、水果之间的关系)的概念模型。

- 术语

该术语包含了哪些词汇(逻辑学中的外延)术语之间的关系 (逻辑学中的矛盾、反对、包含、全同、互异、差等关系…)

本体可以简单也可以复杂。如:最简单的词汇表(只定义术语集合，不定义术语之间的关系)也可以看成是一种“本体”;但严格意义上的本体，是既定义了术语、也定义了术语之间关系的。生活中，最常见、最成熟的本体，就属图书馆里的图书分类法了。
本体，以图书分类法为例，一方面限定了术语集合 (即规定大家必须采用共同承认的一套词汇，禁止私自发明新词)，另-方面定义术语之间的上下位关系(如: 计算机技术隶属于工业技术，软件技术隶属于计算机技术，等等)。只要大家都认同该本体，并在实践中长期遵守该本体，依照它来编排和索引书目，那么日后寻找一本书就会非常方便。通过这个简单的例子，我们可以发现，本体在实践中非常重要的一点就是:认同(专业术语称为ontology commitment)。从这点来说，本体一定意义上起到了是标准化的作用。另一点很重要的就是:**本体应该是稳定的，不能轻易变化。**由本体演化引入的更新代价将是巨大、甚至是灾难性的! (比如:图书分类如果迭代了更新可能会让人们很难找到自己想要的书籍。)

- 语义网

(Semantic Web)中的本体(尤其是在学术界)常常有所特指，通常大家认为Semantic Web中的本体是用RDFS或OWL描述的本体。RDFS、OWL可以表达比前面提到的图书分类更复杂的本体，比如定义同义词、反义词，对属性的值域施加约束(限制事物之间的关系进一步延伸。) 等等。

五、本体与类、本源、实体、符号的区别

本体与类的区别:类:具有相同属性的事物。类的分子:组成某类的个别事物。
本体包括类，类是本体中的一部分，本体不仅包括类，还包括类与类、实例与实例、属性与属性之间的关系。简而言之:“本体有关系，类没有。”见其他层面的本体定义。
本体与本源:本源主要说明的是事物基质和元素的来源，以及作为原初物的“母体”性的存在。本体是形而上的抽象概念，类似于本原，但比本原更为普遍化，任何事物都能抽象出本体的存在，事物映射成为本体的外在符号。本体也就是存在本身，亚里士多德称为本体。
本体与实体的区别: 实体是概念具象化之后的产物。
本体与符号的区别: 现实世界里我手里拿着一个实实在在的苹果，这就是本体，但是我如果去描述它就成了符号，比如用中文“苹果"、英文apple.那么它(“苹果”， "apple’ 还是指这个实实在在的苹果? )就是符号。你一旦试图描述它，任何描述的东西都是符号。
本体只有一个吗?否，比如苹果的本体和飞机的本体当然是不同的本体,但本体之间的关系的研究也是非常重要的，虽然苹果的本体和飞机的本体是不同的，但都可以归类到物品的分类中，当然不同本体还有不同的属性，这些都是本体论的研究范畴。

六、用语义三角形理解本体

- 术语

在特定专业学科领域用来表示概念的称谓的集合。(表示专业领域词汇的集合)词汇还是词汇表? (无关系)

- 词汇表

收录某些专业学科的语词、术语和短语，按照一定顺序排列，有的还给出简单释义或对等词的词汇集。通常有单语、双语、多语之分。词汇:①一种语言中所有的词以及固定结构(set phrase)，如成语、惯用语的总汇。②一定用语范围内的词语总和。

- 叙词表

(有关系) 例子?叙词表又称为，它是一种语义词典，由术语及术语之间的各种关系主题词表构成，能反映某学科领域的语义相关概念。

- 叙词表与本体的二者区别?

叙词表中只包含“用、代、属、分、参、族"这样的简单的语义关系。而ontology中概念间的关系，则被描述得更为广泛深入、细致和全面。这是二者的最主要区别，也是为什么基于ontology的系统可以实现语义检索和半自然语言、乃至自然语言检索功能的奧妙所在。来源:《叙词表与本体的区别》

- 语义：词语的含义。

在这里插入图片描述

- 语义三角形

语义三角形也叫概念三角形，这就是理论上的本体。本体核心问题就是概念化，语言三角形就是对概念和指称进行定义的，本体构建的时候本体里面的东西其实都不是概念，而是符号。

语义三角形图如下：
在这里插入图片描述

为什么中间是虚线呢？
这个虚线的箭头叫做指称指称就是指代概念的一个名称，这个术语代表的不是这个事物本身，而是代指这个事物的概念，也可以理解成符号。
比如我叫小明，那能说小明就是我吗，不能，因为小明这2个字就是一个符号，并不能代替小明这个人，还有好多叫这个名字的，小明这是一个单独的概念，有自己的外延和内涵，是独一无二的，所以这里面的虚线只是一个指称，而不是实指。

七、总结

总而言之，本体的核心问题就是概念化，构建本体的时候里面的一个个不是概念而是符号，本体不仅包括类，概念，还包括类与类之间的关系，概念和概念的关系（概念模型），类的属性等。本体包含了公认术语组成的一个集合，是可以共享的，比如图书馆图书分类；本体又是形式化的，指代的是事物的符号，同时也是被计算机可读的；本体是明确的，不可能一个事物有多个本体，本体不是模棱两可的。所以说本体是共享概念模型的形式化、规范、明确的说明。
可以记成：“共盖姓名龟”。先想本体就像一个概（盖）念模型，不仅有概念还有概念之间的关系构成了一个系统就是概念模型，这个模型是共享（共）的，本体就是起到了一个标准化的作用，标准化就需要形式化，明确化（姓名）的说明。