2018年以前的语义计算技术梳理

1.概述

语义计算是理解自然语言的核心内容之一,有助于计算机量化、理解语句或文档的关联程度。依
据语义资源的不同,典型的语义相似度计算方法分为基于知识库基于语料库

知识库能够提供词汇的语义描述和结构化信息,但是严重依赖于领域专家的构建和维护,词汇覆盖率较低,缺乏可扩展性。

语料库虽然包含丰富的词汇,但是其非结构性导致难以从中提取词汇的有效语义特征。本文重点:

        1.基于知识整合词汇语义相似度计算技术及其应用,提出整合两类语义资源的语义相似度计算方法。

        2.从语义特征的选择与提取、语义特征融合、语义计算这三方面内容梳理知识脉络。

1.1 基于知识库的概念语义相似度计算

知识库是领域专家依据经验构造的结构化的知识表示,用于描述不同层次和不同类别的概念抽象
知识库在本质上是一个对象模型,以本体概念和逻辑规则为基础,以语义网络为结构模型。
知识库将词抽象为概念或者语义节点,以多分类的形式构建概念之间的联系,
基于语义词典的方法和基于领域本体的方法是两种典型的基于知识库的概念语义相似度计算方法
基于语义词典的方法通常依赖于较为完备的语义词典,如WordNet和同义词词林。
基于领域本体的方法侧重于度量特定领域中概念的语义相似度。

1.2 基于语料库的单词语义相似度计算

语料库是无结构的文本集合,包含丰富的词汇信息和语法信息
为了计算机能更好地理解这些信息,基于语料库的语义相似度计算方法通常将词汇或文档表示为
向量形式,利用统计方法来计算出向量特征值,进而计算出词汇的相关度或相似度。
基于语料库的单词语义相似度计算通常建立在计算上下文相似度的基础上,选择合理的上下文作为一组特征词。
基于统计模型计算出特征词与每个词的相关性,得到词汇的特征向量,并将向量之间的相似度作
为词汇的语义相似度。


1.3 现有技术的不足

1.较少研究对知识库和语料库的语义信息进行整合
2.由于单一资源所包含的语义信息有限,基于知识库和基于语料库的语义相似度计算方法应用范围
受限、灵活性不足。
3.基于知识库的概念,语义相似度计算方法的准确率有待进一步提升。尤其是针对WordNet的概念图结构,其中可用的语义属性有待进一步挖掘和利用,构造混合式的计算方法。
4.词汇语义的抽取和表示方法有待改进:传统基于词袋模型的VSM只考虑词汇在上下文中的统计特性,生成的词向量特征离散、稀疏使得度量语义相似度的准确率不高。
现有研究为了整合基于多个计算方法或异构向量空间模型的度量结果,通常采用平均操作,计算
准确性较低;或采用回归模型对结果进行加权组合,需要大规模的训练数据集,计算任务量大,适应性较差。

1.4 本书主要内容与创新

本书提出了基于知识整合异构知识表示的语义相似度计算方法
本书从语义特征的选择与提取、语义特征的融合、语义相似度的组合计算这三个方面入手。
本书基于图模型与向量空间,利用统计模型、深度学习等技术,提出了三个计算词汇语义相似度
的方法
第3章提出了一种结合路径距离和信息含量(IC)的混合式概念语义相似度计算方法。

        利用概念的IC对概念之间的直连边长进行加权,将由IC加权后的最短路径距离分别与深度差异率、归一化的最短路径距离进行加权组合,并将路径距离非线性地转化为概念的语义相似度
为了更好地量化概念的固有IC值,提出了基于WordNet概念的节点密度和深度的固有IC混△
(IIH)模型。在语义相似度计算中引入基于WordNet的固有IC与基于语料的统计IC的混合计算,以此实现WordNet与文本语料这两类语义资源的知识整合。


第4章提出了一种基于特征向量的语义相似度计算方法。

利用WordNet中的概念释义和语义关系,构造概念向量和语义增强的词向量,从而实现WordNet与大规模文本语料在语义特征层的知识整合
首先基于连续词袋模型从语料库中无监督地学习出低维的实数词向量。然后,将语料中的词汇映射到WordNet中的概念,提取概念的多个语义属性(Attribute)中的相关词及其向量。
最后,利用向量的多种代数操作策略,获得语义增强的词向量,提升原始词向量的表意能力,进
而改善基于词向量的语义相似度计算。

第5章提出了-种基于差分进化的语义相似度计算方法。
基于度量方法的异构数据整合
将由不同语义资源计算得到的相似度结果进行加权并找出全局近似最优解,其中包括多种向量相
似度公式和基于WordNet的语义相似度计算方法,以此整合基于异构语义资源的多类方法,改
善基于单-语义资源的语义相似度计算
与基于排序学习和回归分析两类有监督学习模型的计算方法进行实验对比。
通过分析实验中差分进化算法的个体维度具有的权值,探索了低维词向量可能隶属的空间将语义增强的词向量应用于该方法中,进一步提升了语义相似度计算的准确度。

2.相关技术基础

2.1 基于图结构的概念语义相似度 计算方法

1.基于路径距离的语义相似度计算方法
利用两个概念词之间的路径长度来衡量其语义相似度。
考虑概念对的相对路径距离和它们所处的绝对位置。

2.基于信息含量的语义相似度计算方法
依据两个概念之间共享的信息量的大小来衡量其语义相似度。
减少对语料的依赖和由词频统计引起的计算量。

3.基于特征属性的语义相似度计算方法
利用语义的特征模型,将概念表示为特征词的集合或向量
充分利用了WordNet提供的语义信息,如概念的定义和语义关系,

4.混合式语义相似度计算方法
为了克服基于路径距离、基于信息含量、基于特征属性这三种计算方法所具有的局限性。
提升相似度计算在特定应用中的效果。

5.基于随机图游走的语义相似度计算方法
利用WordNet的图结构,通过随机游走算法,构造概率向量空间。
挖掘出概念的语义分布,利用概率分布的相似性来度量概念的语义相似度,

2.2 不同的与图有关的概念语义相似度计算方法的特征比较

基于路径距离的计算方法主要基于连接边,采用多种结构信息计算两个概念在结构中的路径长度
边的类型和长度、概念的密度和深度。


基于信息含量的计算方法主要依赖于两个概念词之间共享的信息含量
每个概念所包含的信息含量是概念反映出的语义信息的量化值。

基于特征属性的计算方法利用的是两个概念节点之间共享的特征
事物可以由多个特征来表示,因此事物的关联程度与其所共享的公共属性数量有关。

混合式计算方法侧重于同时采用上述三类方法中的多种计算元素,综合不同方法的优势。

基于随机图游走的计算方法充分利用概念之间的多种语义关系,基于路径传播和跳转概率,挖掘
出没有直连边或距离较远但直观上相似的概念的语义关联
较多方法采用Page Rank策略。

3.数据

知识库和语料是计算语义的来源
知识库包括由语言学家根据先验经验给出的知识结构(如WordNet和YAGO),以及基于众包思想
行生的知识架构(如Freebase和维基百科等)。语料是包含丰富的词形、语法等信息的文本集合。

知识库WordNet的图结构及概念语义相似度计算
WordNet是一个包含同义词集、上下位关系等的图结构
WordNet的图结构由同义词集(synsets)组成,每个同义词集包含一组词,这些词具有相同的含
义。
同义词集中的词通过上下位关系(hypernyms and hyponyms)连接起来,形成一个树状的层次
结构。


基于WordNet的概念语义相似度计算技术
路径长度法:计算两个词在WordNet图中的最短路径长度,路径长度越短,相似度越高。
Leacock-Chodorow相似度:考虑了同义词集内部和之间的相似度,通过计算两个词的最短路
径长度和同义词集大小的比值来得到相似度。

3 以往代表工作:

Sussna M. Word sensedisambiguation for free-textindexing using a massive semanticnetwork [C]// Proceedings of the2nd ACM International Conferenceon Information and KnowledgeManagement, New York, 1993:67-74.

Sussna基于语义关系的类型和概念的深度计算概念语义相似度。他们的方法主要包括以下几个方面:

  1. 使用语义网络进行消歧:利用 WordNet 语义网络,通过最小化目标函数来进行术语消歧,该函数利用了 WordNet 中主题间的语义距离。
  2. 边加权方案:采用深度相对缩放的边加权方案,具体为每个边由两个反向关系组成,关系类型的权重范围在其自己的最小值和最大值之间,特定弧的权重取决于离开节点的相同类型弧的数量,然后对两个反向权重取平均并除以边在整体 “树” 中的深度。
  3. 总距离最小化:利用网络节点间的语义距离作为节点所代表主题间的相关性度量,通过选择使总距离最小的 senses 组合来进行消歧。对于给定的一组术语,尝试每个术语的所有可能的 sense 组合,计算每对 sense 之间的成对距离并求和,选择使总和最小的 sense 组合作为 “获胜” 组合。
  4. 窗口技术:尝试了纯相互约束、纯冻结过去以及两者结合的方法。在相互约束中,考虑周围术语的所有 sense,而不仅仅是它们的获胜 sense;在冻结过去中,根据窗口大小确定赋予 sense 的术语。

他们的创新点在于:

  1. 利用语义网络:通过 WordNet 语义网络进行词义消歧,为解决信息检索中的多义性和同义词问题提供了新的途径。
  2. 深度相对缩放:在边加权方案中采用深度相对缩放,考虑了节点间关系的深度因素,有助于更准确地反映语义关系。
  3. 多种消歧方法结合:尝试了相互约束、冻结过去以及两者结合的方法,并通过实验探索了不同窗口大小和类型对消歧效果的影响,为找到最优的消歧策略提供了多种可能性

文章的结论包括以下几点:

1. 应用语义网络来最小化语义距离,在去除自由文本索引中无关搜索术语的目标上取得了很大进展,同时将自然语言处理的复杂性保持在最低水平。

2. 所采用的方法在时间和空间上进行了权衡,使用大型数据结构并将其存储在主内存中,以减少运行时的处理工作量。尽管没有进行句法分析和语篇合成,但通过网络的声明性结构尝试利用了一些语义。

3. 移动冻结过去窗口的使用在一定程度上提高了性能,然后趋于平稳,且得分始终远高于随机水平。结合初始相互约束窗口可能会有所帮助,而冻结过去技术仅需线性时间,这是一个重要的考虑因素。

4. 虽然移动相互约束窗口在理论上很有吸引力,但由于处理时间呈指数增长,在当前技术下变得不可行。如果愿意接受近似解决方案,可以使用遗传算法等技术来找到良好的组合。

5. 实验表明,在许多扰动下,性能高于随机水平是稳健的。例如,使网络权重统一、赋予反义词特权、去除特定类型的扇出以及贬低严格的层次关系并不会显著损害性能。另一方面,深度相对缩放和限制为严格的层次关系会明显损害性能,但仍远高于随机水平。

6. 作者的方法有可能处理从无关键词分配到从受控词汇中进行选择性关键词分配的整个索引范围。

Richardson R, Smeaton A,Murphy J. Using wordnet as aknowledge base for measuringsemantic similarity between words[D]. Dublin:Dublin City University,1994.

Richardson等人[49]基于概念的深度和密度、概念语义关系的强度,计算出权重因子,对概念的边长进行加权。例如,​“is-a”继承关系的强度大于“part-of”整体/部分关系的强度,因此其对应的边长被赋予较大的权重因子。

研究背景和目的

  • 传统信息检索系统易受自然语言丰富性的影响,存在多义性和概念描述多样性的问题,需要一个能区分词义并关联语义相似概念的知识库。
  • 本文提出使用 WordNet 作为知识库,引入语义知识,并提出语义相似度测量方法,以替代模式匹配。

主要内容

  • WordNet
    • 是普林斯顿大学的研究项目产物,具有在线词典和词库的功能,信息围绕称为同义词集的逻辑分组组织,包含多种语义指针。
    • 本文仅使用 WordNet 中的名词作为知识库,构建了一组分层概念图(HCGs),确定了一些根概念,HCGs 的大小从 43950 个独特概念到 688 个概念不等,但存在链接未加权的问题。
  • 概念相似度
    • 采用概念距离和基于信息的方法来估计语义相似度,概念距离方法基于 [Rada89, Kim90, and Lee93] 的工作,使用相邻节点之间的边权重作为语义相似度的估计器。
    • 基于信息的方法基于 Philip Resnick 的工作,将名词同义词集视为一类单词,通过估计类在大文本语料库中出现的概率来近似信息内容,从而计算两个类的相似度。
    • 单独使用概念距离测量存在一些问题,包括 WordNet 衍生的 HCGs 域较广导致测量不准确,以及概念距离测量容易受到 WordNet 构建者的影响。Resnik 的方法也存在一些弱点,如忽略了 WordNet 中有用的信息,以及在计算信息内容时存在多义词和多词同义词集的问题。
  • 加权 HCG
    • 语义相似度的概念距离估计器要求 KB ( Knowledge Base,即知识库)中概念之间的边被加权,由于本文创建的 HCG(分层概念图) 很大,通常的手动加权每个链接的过程不可行,需要自动加权的方法。
    • 通过观察发现,链接权重的值受 HCG 在该点的密度、在 HCG 中的深度以及父节点和子节点之间内涵的强度影响。目前,通过计算特定链接类型的数量来估计 HCG 的密度,通过链接的信息内容值以及其兄弟节点和父节点的信息内容值来估计内涵的强度,然后将这两个操作的结果除以链接在 HCG 中的深度进行缩放。

结论和未来工作

  • 目前正在进行系统的各种配置的评估,应用场景为使用华尔街日报文本语料库和 TREC 进行文档检索,比较了基于信息和概念距离的语义相似度估计器与传统模式匹配 IR 系统的结果。
  • 未来工作包括对大规模评估结果的完整分析,研究结合两种语义相似度估计器的适当方法,对语义标记器进行更严格的评估,以及进一步发展自动 HCG 加权策略。

2006 A Cluster-Based Approach for Semantic Similarity in the Biomedical Domain

基于簇的办法(2006):在 UMLS 框架内提出了一种新的基于聚类的生物医学领域语义相似性/距离测量方法。所提出的测量方法主要基于概念节点之间的交叉修改路径长度特征(e cross-modified path length),以及两个新特征:(1) 两个概念节点的共同特异性,以及 (2) 聚类的局部粒度 local granularity。为了进行比较,我们还将五种现有的基于通用英语本体的相似性测量方法应用于 UMLS 中的生物医学领域。所提出的测量方法相对于人类专家的评分进行了评估,并与 UMLS 中使用两种本体(MeSH 和 SNOMED-CT)的现有技术进行了比较。实验结果证实了所提出方法的有效性,并表明我们的相似性测量方法与人类评分的相关性总体上最好。我们进一步表明,在所有测试的测量方法中,使用 MeSH 本体比 SNOMED-CT 与人类专家的评分产生更好的语义相关性

1 The least common subsumer (LCS) of two concept nodes determines the common specificity of two concept nodes (e.g. LCS(a2,a6)=a1 & LCS(a1,b1)=r), therefore we use LCS for computing common specificity of two concept nodes

测量局部密度的一种方法是使用基于语料库统计的概念信息含量[4,8,9,15]。由于生物医学领域没有标准的语料库,因此我们只使用基于本体的特征作为语义相似性的属性。我们还希望通过考虑包含概念节点的聚类来进一步检验该概念节点的局部特异性。下面的例子解释了聚类对局部概念特异性的影响。例如,让我们考虑图 1 中显示两个聚类的本体片段。 我们对 C 簇中概念 c 的特异性定义如下:

其中,depthC 是聚类 C 的深度,spec(c) [0,1] 。 我们注意到,当概念 c 是簇 C 中的叶节点时,spec(c) = 1。那么,在图 1 中,a3 和 b3 的特异性计算如下:

spec(a3)=3/4=0.75

spec(b3)=3/3=1.00

因此,尽管 b3 和 a3 的深度相等,但 b3 的特异性(1.00)大于 a3 的特异性(0.75)。因此,b3 在其聚类中比 a3 更有特异性,因为它在聚类中更靠下。因此,我们应该考虑到聚类的局部粒度这一特征,而现有的大多数以本体结构为主要信息源的度量方法都没有考虑到这一点。

在讨论建议方法的细节之前,我们先介绍一下我们的规则和假设。

A. 规则和假设

我们希望将上文讨论的所有语义特征以一种有效且合乎逻辑的方式结合在一项测量中。我们

我们将直观的规则和假设总结如下:

规则 R1: 语义相似性量表系统显示(反映)概念对的相似程度在一个聚类或跨聚类中的相似程度。这条规则确保簇 1 到簇_2 的映射不会降低任何簇的相似性标度。不会降低任何聚类的相似度。

规则 R2: 语义相似性必须遵守本地簇的相似性规则,如下:

规则 R2.1: 层次树中两个概念节点之间的距离越短的距离越短,它们的相似度就越高,越相似。

规则 R2.2: 低层次的概念节点对更接近(更相似)。

规则 R2.3: 当两个概念节点是层次树中的同一节点时,相似度达到最大。

在介绍所提出的测量方法的细节之前,我们先提出并解释我们对语义法的假设函数:

假设 A1:对数函数是语义距离的普遍规律。

指数衰减函数是心理科学刺激泛化的普遍规律[16]。我们使用对数(指数的倒数)来表示语义距离。我们认为,非线性组合方法是的最佳方法。

因此,我们需要另一个假设。

假设 A2:非线性函数是语义相似性特征的普遍组合规律。

B. 新特征: 共同特异性特征Common Specificity Feature(Spec)

除了路径长度特征外,我们还有效地利用了概念节点的深度来提高性能。

两个概念 C1 和 C2 的最小公共子消费者(LCS)节点C1 和 C2 的共同特异性。

在聚类中的共同特异性。因此,我们通过找出两个概念的特异性,通过测量LCS,再通过聚类深度D缩放。

如下所示:

因此,CSpec(C1,C2)特征决定了集群中两个概念的 “共同特异性”。两个概念节点的共同特异性

值越小,它们共享的信息就越多,因此相似度就越高。

单群集相似性

在单群组中,由于只有一个群组,因此不考虑群组的局部粒度。因为只有一个单一的聚类。我们有两个特征进行组合: 路径长度和共同特异性,如公式(2)所示。当两个概念节点为同一节点时,路径长度将为 1(使用节点计数法,因此,无论 CSpec 特征如何,语义距离值必须达到最小值。

根据规则 R2.3(语义距离是语义相似性的倒数)。因此,我们使用语义距离的乘积来组合特征。应用规则R1、R2 和两个假设,对单个聚类的建议测量值为

  (3)

后面就是讨论各种聚类情况中怎么组合CSpec的值与log函数。

跨簇语义相似度:

在跨簇语义相似度中,衡量两个概念(C1 & C2)之间的相似度有四种情况取决于两个概念节点的位置

在本体的簇内。让我们假设具有最大深度的簇是主簇(称之为主簇),其语义特征来自所有其他集群都将缩放到该集群的规模级别。

进一步,让我们将所有其他剩余集群称为次要集群。那么,我们有以下四种情况:

情况 1:主集群内的相似性:

如果两个概念节点出现在主节点中聚类,然后我们将这种情况视为单个内的相似性,如聚类方程(3)。

案例2:跨集群相似度:

在这种情况下,两个概念节点之一属于主集群,而另一个在辅助集群中,两个概念节点的LCS为全局根节点,属于两个集群。该技术不影响主集群的 CSpec 特征的规模。

然后,共同的特异性给出为:

其中 Dprimary 是主簇的深度。根是本例中两个概念节点的 LCS。路径在两个概念节点之间经过两个簇,具有不同的粒度程度。该部分的属于次要簇的路径长度按比例缩放粒度与主集群不同,并且

因此,我们需要将其转换(调平)为主集群规模级别如下。

跨簇路径长度特征:路径长度 两个概念节点 (c1 & c2) 之间的计算公式为 将两个节点的两个最短路径长度相加 到他们的 LCS 节点(他们的 LCS 是根)。例如,在图1,对于两个概念节点(a3,b3),LCS是root r,我们测量 a3 和 b3 之间的路径长度为:

Path(C1,C2) = d1 + d2 -1 

 d1 = d(a3, root) 且 d2 = d(b3, root),,其中 d(a3, root) 是从根 r 到节点的路径长度

a3;类似地,d(b3, root) 是从 r 到 b3 的路径长度。

请注意,根节点被计数了两次,因此我们减去1。我们在这里注意到密度或两个簇的粒度处于不同的尺度。然后,我们要缩放路径长度的部分,辅助集群进入主集群的规模级别。

包含a3的簇的深度较高,那么它就是主簇,包含 b3 的簇是次要的。主集群的粒度率超过共同特异性特征的辅助簇是:

其中 (D1-1) 和 (D2 -1) 是最大共同特异性

分别表示主簇和次簇的值。

路径长度特征的粒度率 PathRate主集群相对于辅助集群的计算公式如下:

其中 (2D1-1) 和 (2D2 -1) 是最大路径值

主、备集群中的任意两个节点分别。根据规则 R1,我们将中的 d2 转换为主集群如下:

这个新的路径长度 d'2 反映了第二个路径的长度

LCS 相对于主簇路径长度的概念特征尺度。应用式(8),我们得到路径长度主集群中2个概念节点之间的规模如下:

最后,两个概念节点之间的语义距离

给出如下:

案例 3:单个辅助集群内的相似性

第三种情况是当两个概念节点处于单个辅助集群。那么语义特征,在在这种情况下,必须转换为主集群的规模

Path 和 CSpec 这两个特征如下:

其中 Path(C1, C2) secondary 和 CSpec(C1, C2) secondary 是辅助集群中 C1 和 C2 之间的路径和 CSpec。

案例 4:多个辅助集群内的相似性

第四种情况发生在两个概念节点位于两个不同的次要集群中。在这种情况下,其中之一辅助集群暂时充当主集群使用以下方法计算语义特征(路径和 CSpec)

跨集群方法如上面的案例 2 所示。然后,使用 Case-3 计算语义距离来缩放功能(再次)达到主集群的规模级别

 数据集

没有标准的人类评级数据集生物医学领域的语义相似性。来评估我们的方法,但是,我们使用了 30 个(已发布)数据集Pedersen 等人的概念对。 [12],(我们称之为数据集1) 由 3 名医师和 9 名医疗人员注释指数专家。每对都按 4 分制进行注释几乎同义、相关、边际相关,以及无关。由于篇幅限制,表1仅包含该数据集的前 10 对。平均相关性医生之间的比例为 0.68,专家之间的比例为 0.78。因为专家不仅仅是医生,而且专家之间的一致性(0.78)高于医生之间的相关性(0.68),我们可以假设专家的评分比官方评分更可靠医生的评分,因此我们使用专家的评分我们的实验。

我们使用的第二个数据集(我们称之为数据集 2)包含36 个生物医学 (MeSH) 术语对 [3]。人类得分为该数据集是可靠的平均评估分数医生。表 2 包含该数据集的前 10 对。

我们使用 UMLSKS 浏览器 [18] 进行 SNOMED-CT,并且MeSH 浏览器 [19] 用于 MeSH 获取有关

两个数据集中的术语。

B. 实验和结果

在实验中,我们假设这两个特征对语义相似性的贡献相同(即 D = E = 1)并与其他四种基于结构的语义相似性度量。所有措施均使用节点计算路径长度和概念节点的深度

除了 Li 等人使用边缘/链接方法的测量 [8]。在数据集 1 的 30 对中,我们只能找到MeSH 中 25 对,SNOMED-CT 中 29 对。对于MeSH 中未找到的四对在SNOMED-CT,我们计算了最每一个都有相关的概念,所以我们有 29 对总共在 MeSH 和 SNOMED-CT 中。我们还找到了 34 对在 SNOMED-CT 的 36 对数据集 2 中,我们使用实验中只有这 34 对。表_4 和表5显示了与人类评分的相关性结果使用 MeSH 和 SNOMED-CT 进行实验的分数数据集 1 和数据集 2。

C、讨论

表 4 和表 5 显示,所提出的措施实现了与人类评分的最佳相关性并在以下方面排名第一

几乎所有实验都使用两个本体。这些结果确认我们提出的措施的效率以及新功能的“优点”。如果我们取平均值所有实验的相关性,对于每个测量,我们发现Sem 的成绩比平均水平高出 23.9%

其他措施。此外,我们注意到通过测试,用 SNOMED-CT 的数据集 1(表 4),除 Sem 之外,大多数基于结构的测量的表现都非常低,因为SNOMED-CT 的特异性(粒度)更高比 MeSH 更重要。所以我们的措施,通过使用特异性特征,显着优于其他五项指标。

我们观察到,对于数据集 1,所有度量都相同MeSH 和 SNOMED-CT 中的排名(表 4)。其他

观察结果是路径长度和 Choi & Kim本体和两个方面都保持自己的排名

数据集。所有测量的平均相关性表 4 和表 5 显示 MeSH 给出了更高的与人类评分的相关性高于 SNOMED-CT,即所有测量在 MeSH 中的表现均优于 SNOMED-CT。

六.结论

本文提出了一种新的基于本体的语义相似性度量作为基于聚类的方法。这提议的措施在生物医学领域进行了评估使用两个生物医学术语对数据集和两个不同的本体(MeSH 和 SNOMED-CT)

UMLS。本文的主要贡献是新的使用新功能进行测量(共同特异性和局部性)

粒度)在语义上非线性组合相似性度量。实验结果证明拟议措施和新措施的效率与人类判断相关的特征并与其他五个语义测量。与其他相比措施,所提议的措施产生了最佳的总体效两个数据集中的结果与人类判断的相关性并在两个本体中。实验结果进一步证明 MeSH 本体可以产生更好的结果

语义相似度与人类评分的相关性SNOMED-CT 覆盖了大多数测试指标。

1995  Hirst G, St-Onge D. Lexicalchains as representations of  context for the detection andcorrection of malapropisms

2. 词汇链

3. WordNet 作为词汇链的知识源

4. 自动检测词语误用

5. 结论

致谢:感谢 Jane Morris 等人的讨论、帮助和反馈,研究得到加拿大自然科学与工程研究委员会的资助和相关奖学金支持。

  1. 作者 Graeme Hirst 和 David St - Onge,文章探讨了词汇链作为语境表示的概念,并展示了如何通过 WordNet 构建词汇链,以及将其应用于检测和纠正词语误用(malapropisms)的任务中。

     

    1. 引言

  2. 自然语言具有高度歧义性,理解其含义需考虑语境影响,许多文本处理任务只需部分理解文本,因此 “更轻” 的语境表示足够,本文研究词汇链作为这种表示的想法,并应用于检测和纠正词语误用。
  3. 词语误用指将一个意图的词与另一个发音或拼写相似、意义不同且不恰当的词混淆,传统拼写检查器无法检测此类错误,本文提出基于词汇链构建的算法来检测和纠正。
  4. 文本中连续的句子可能会提及先前提到的概念和与之相关的概念,这些相关的词可以形成凝聚链。
  5. 词汇链是一种凝聚链,其中包含单词的标准是与链中已有的单词存在某种凝聚关系(不一定是特定关系)。
  6. Morris 和 Hirst 建议使用词典(如 Roget's)来定义单词之间的凝聚关系,但因无法获取在线词典而未能实现算法,WordNet 的发展使其有可能替代 Roget's。
  7. 单词间的关系:基于 WordNet 定义语义相关性,包括超强、强和中强三种关系,同时定义了路径的允许模式及其合理性的理由。
  8. 创建和管理链:词汇链的内部结构复杂,创建链时会为单词创建记录并存储关系,插入单词时会连接相关义项、删除无关义项以消除歧义,更新链中单词的义项列表。
  9. 识别单词和关系:本版本软件将链接过程限制为名词,尝试识别输入文本中包含的复合词和短语,根据不同关系搜索范围寻找单词间的联系,若未找到关系则创建新链。
  10. 测试词汇链构建器:测试词汇链构建器困难,通过在各种文本上试验,发现许多链符合预期且单词被正确消歧,但也存在一些问题,如 WordNet 关系集有限、语义邻近性不一致、消歧不正确或不完整以及非字面用法等。
  11. 拼写检查器:传统拼写检查器主要使用词典查找和 n - gram 分析来检测非单词错误,实词错误更难检测和纠正,Kukich 将其分为四类,研究表明实词错误比例较高,且语义类错误占一定比例。
  12. 检测可能的词语误用的算法:假设程序中已有机制能根据字符串 w 产生可能的误拼写词集合 P (w),程序先查找非单词错误并请求用户纠正,然后构建文本中高含量单词间的词汇链,若单词 w 不在任何词汇链中,但 P (w) 中有单词 w' 在链中,则 w 可能是词语误用,为潜在的词语误用寻找可能的纠正,并尝试找到与词汇链中单词的关系,若有则报警。
  13. 实验:由于自然文本中词语误用极少,通过在已发表文本中插入故意的词语误用进行模拟实验,创建实验文本时使用 Ispell 1.123 的代码生成词语误用,替换每 200 个单词中的一个,实验结果表明该算法能检测到一些词语误用,但也存在误报和漏报的情况。
  14. 回顾:本文将 Morris 和 Hirst 基于 Roget 的词汇链算法改编为基于 WordNet 的算法,并用于检测和纠正词语误用的实验,结果令人鼓舞,但 WordNet 存在一些限制,如限制于形式关系、概念密度不同以及句法类别划分限制等,词汇链检测词语误用的方法也有局限性,如假设词语误用与文本语义几乎无关可能不真实。
  15. 类似研究:Stairmand 也开发了基于 WordNet 的词汇链构建器,主要用于信息检索,方法与本文不同;Li, Szpakowicz 和 Matwin 描述了一种基于 WordNet 的算法来消歧名词。
  16. 词汇链作为语境:词汇链作为语境的使用可以看作是基于知识库中传播激活或标记传递方法的简化形式,传播激活的网络是更丰富的表示,但容易被错误引入歧途,词汇链是相对贫乏的表示,但更灵活且能容忍错误,可用于不需要完全意义分析的语义任务。

根据 WordNet 创建词汇链的步骤如下:


定义单词间的关系

  • 超强关系:仅存在于一个单词与其字面重复之间,具有最高权重。
  • 强关系:包括三种情况,一是两个单词有共同的义项集;二是每个单词的义项集之间有水平链接(如反义、相似等);三是一个单词是包含另一个单词的复合词或短语时存在任何链接。强关系的权重低于超强关系,高于中强关系。
  • 中强关系:当一组允许路径中的成员连接两个单词的义项集时存在。路径是义项集之间的链接序列,长度为 2 到 5,其模式需符合特定规则,路径的权重由公式计算,路径越长、方向变化越多,权重越低。

创建和管理链

  • 首先创建一个空链,然后为链中的单词分配记录,初始化并插入链中,同时存储单词间的关系(超强、强或中强)。
  • 由于一个单词可能有多个义项集,创建新单词记录时,会创建指向该单词每个义项集的指针列表并附加到记录上。
  • 当一个单词开始新链时,保留其所有义项集,因为此时没有上下文信息来区分它们。
  • 插入另一个单词到链中时,通过链接相关义项集建立单词间的连接,然后删除新单词的任何未连接义项集,并扫描链以尽可能删除其他无关义项集,从而缩小上下文范围以消除歧义。
  • 每次向链中添加单词时,会遍历整个链,通过单词连接更新链中每个单词的义项集列表。

识别单词和关系

  • 由于 WordNet 中动词文件与其他三个文件没有关系,副词文件与形容词文件只有单向关系,所以当前版本的软件将链接过程限制为名词。
  • 尝试识别输入文本中包含在 WordNet 中的复合词和短语,这些词比单独的单词更能指示文本的含义。在识别过程中,每个单词都必须通过有效性测试,包括是 WordNet 名词或可转换为名词,且不在停用词列表中。
  • 如果一个单词可能可链接,首先在所有链中寻找超强关系,如果找到,则将该单词添加到相应链中;如果没有找到,在文本中不超过七句的任何链中的单词中寻找强关系,一旦找到强关系搜索就结束;最后,如果仍未找到关系,则在不超过三句的链中的单词中寻找中强关系,由于中强连接的权重不同,必须找到搜索范围内的所有中强连接,以保留权重最高的那个。如果根本找不到关系,则为该单词创建一个新链。

通过以上步骤,可以根据 WordNet 创建词汇链。

  • 19
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值