基于中文语义词典的语义相关度量方法比较研究

最新推荐文章于 2020-12-31 13:35:05 发布

置顶

ganlantree

最新推荐文章于 2020-12-31 13:35:05 发布

阅读量5.7k

点赞数

分类专栏：相关度文章标签： semantic 扩展 methods 算法文档语言

本文链接：https://blog.csdn.net/ganlantree/article/details/2443362

版权

本文对比分析了多种基于语义词典的语义相关度量方法，如Resnik、Banerjee-Pedersen、Jiang-Conrath和Lin等。在真人单词对相关度实验和主题抽取应用中，研究了这些方法在《同义词词林》扩展版中的效果，发现Jiang-Conrath、Lin和Wu-Palmer的方法表现最优。此外，探讨了词典结构、信息量和释义在计算语义相关性中的作用，并指出不同方法在不同应用场景下的适用性差异。

摘要由CSDN通过智能技术生成

摘要：词语语义相关度的计算,一种比较常用的方法是使用分类体系的语义词典，而国内外学者已经提出了多种基于语义相关的度量方法。这些方法对于词典和语言环境的依赖性是一个值得研究的问题。本文汇总了多种基于语义词典的方法，全面地概括分析了这类方法的特点。基于哈尔滨工业大学信息检索实验室提供的《同义词词林》扩展版，本文分别在真人单词对相关度判断实验和主题抽取的实际应用中比较了多种方法的效果，从而找出了《同义词词林》扩展版中的较好方法。

关键词：语义相关，度量方法，同义词词林

Abstract：To compute the semantic relatedness of glossary, a frequently used method is to use classified semantic dictionary. But scholar domestic and foreign has already proposed multiple account methods based on semantic relatedness. The dependence of these methods to the dictionary and context is a question worth to study. This paper collected multiple methods based on semantic dictionary, roundly summed up and analyzed the character of these methods. Based on the HIT IR-Lab Tongyici Cilin (Extended), this paper compared multiple methods’ effect in the application of the human couple words relatedness judgment experiment and the human subject extraction experiment, thereby find the best method used in the HIT IR-Lab Tongyici Cilin (Extended).

Keywords: Semantic Relatedness，measure methods, Tongyici Cilin

1 绪论

相关是人的思想和语言中最基本的元素，它存在于人们生活的每个角落。无论是从事科学研究还是处理日常琐事，人们总是将相关概念归类处理，并建立联想机制。一直以来，心理学家和信息科学研究者都努力将人的相关性认识形式化和可计算化。心理学家关心的是用什么样的相关性理论来解释人的相关性认识，而信息科学研究者更关心如何在计算机上模拟出人对相关性的判断。需要指出的是，语义相关可以应用于文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域。它是一个基础研究课题，正在为越来越多的研究人员所关注。

目前，国外学者对于语义相关的研究已经比较成熟。语义相关的方法可以分为两类，一类是基于语义词典的方法，一类是统计的方法^[1]。特别是利用WordNet^[2]这个开源工具，很多学者都提出了基于语义词典来度量语义相关的方法，如Resnik^[3]利用信息含量的方法，Banerjee和Pedersen^[4]的扩展释义重叠方法等等。

但是，国内在语义相关原理和应用方面的研究都比较欠缺，特别缺少在中文环境下的分析与应用。颜伟和荀恩东^[5]计算了WordNet中英语单词的相似度，孙爽和章勇^[6]^提出了基于语义相似度的聚类算法，但是他们研究的语言环境还是英语。在中文环境下，章成志^[7]介绍了上文若干种度量方法但没有进行相互之间的比较，刘群和李素建^[8]基于《知网》提出新的度量方法但仍囿于《知网》的规模相对较小。关毅和王晓龙^[9]利用《同义词词林》和北京大学共享的《人民日报》精加工语料库进行了汉语词语相似度的计算，但是他们仅仅采用了Lin的方法，并且只是初步将机器排序结果与人工排序结果相比较，缺乏实际的应用背景。李峰^[10]等人根据现有的方法，提出了多个相似度计算公式，但比较时实验集很小，并且缺乏在实际应用中的比较。

英语环境中所提出的各种方法，是否也同样适合于中文环境，换言之，它们是否具有对语义词典有依赖性。这是一个研究的问题，但是国内还没有开展过这方面的研究。本研究弥补了这个缺陷。利用哈尔滨工业大学信息检索实验室提供的《同义词词林》扩展版^[11]，本文一方面开展了单词对相关度判断实验，比较各种方法计算结果与真人结果的相关系数；另一方面，比较了各种度量方法在主题关键词抽取中的效果，找出中文环境中的较优方法并应用到实际项目之中。

2 基于语义词典度量方法

关于语义相关的研究由来已久，很多学者也都提出了自己的方法。本文主要从计算机科学的角度来介绍各种方法。从概念或语义角度计算相关度，大致可以分为两种方法：统计方法和语义词典的方法。同时应该注意的是，目前针对本体的研究非常之多。在某种意义上而言，本体或类似本体的结构，如主题图等都可以视为一个语义更为丰富的语义词典。所以，下文中基于语义词典的方法同样适用于本体中概念的相关度计算。

对于基于语义词典的方法的介绍， Budanitsky和Hirst^[12]、Jiang和Conrath^[13]等人都做过研究。因为每种相关度计算方法各有特点，所以本文将其汇总到表2.1中，并分析它们各自的特点，最后判断它们是否适用于《同义词词林》扩展版。表2.1中方法名称统一使用方法提出者的姓名缩写。表2.1中符号定义如下：

1) 同义词集到同义词集的最短路径的长度用来表示。

2) 一个节点的深度是指从该节点到根节点的路径的长度，即，。

3) 和的最近共同父类，即同时包含c₁和c₂并且深度最大的类，记为。

4) 给定两个概念和的语义相关度公式为，两个单词的相关度可以通过公式2.1计算

(2.1)

即两个单词之间的相关度等于它们代表的概念之间的相关度的最大值。其中：属于 , 属于。这里指“分类系统中单词w_i的意义所对应的概念集合”^[4]。

表2.1 基于语义词典度量相关度方法汇总

类型	名称	计算公式	方法特点
1	Hir-St		利用语义词典的结构特点，包括连接路径的长度和方向转变次数。
1	Sussna		同样是利用最短联接路径，但是路径中不同的关系有不同的权重。
1	Wu-Pa		考虑了两个概念的深度和它们最特化包含类的深度
1	Lea-Ch		考虑了最短路径长度和词典中的最大深度
2	Resnik		首次将语料库中的词频作为信息含量引入计算
2	J-Con		同时考虑了信息含量和词典的结构
2	Lin		同时考虑了信息含量和词典的结构
3	B-Pe		利用语义词典的注解中重叠部分的长度和加分机制
3	Pat		利用注解中的单词生成单词向量，向量值从语料库的词频统计中获得
3	Liu		利用义原层次体系中的距离来获得义原之间的语义距离

1) 第一列中1表示考虑结构特点的方法，2表示考虑信息量的方法，3表示利用概念释义的方法。

纵观以上各种基于语义词典的度量方法的计算公式，以下因素是最经常使用的：

1) 最短路径长度，即两个概念节点A和B之间所隔最少的边数量。例如表2.1中Hirst和St-Onge的方法^[14]，刘群和李素建的方法^[8]。

2) 局部网络密度，即从同一个父节点引出的子节点数量。显然，层次网络中的各个部分的密度是不相同的。例如，WordNet中的plant/flora部分时非常密集的，一个父节点包含了数百个子节点。对于一个特定节点(和它的子节点)而言，全部的语义块是一个确定的数量，所以Richardson^[15]认为局部密度效应就是，密度越大，节点（即父子节点或兄弟节点）之间的距离越近。

3) 节点在层次中的深度。徐德智^[16]等认为，在层次树中,自顶向下,概念的分类是由大到小,大类间的相似度肯定要小于小类间的。所以当概念由抽象逐渐变得具体,连接它们的边对语义距离计算的影响应该逐渐减小。例如表2.1中Sussna的方法^[17]，Wu和Palmer的方法^[18]，Leacock和Chodorow的方法^[19]等等。

4) 连接的类型，即概念节点之间的关系的类型。在许多语义网络中，上下位关系是一种最常见的关系，所以许多基于边的方法也仅仅考虑IS-A连接。事实上，如果其他类型的信息可以得到，如部分关系和整体关系，那么其他的关系类型对于边权重计算的影响也同样应该考虑。例如表2.1中Sussna的方法^[17]。

5) 概念节点的信息含量。它的基本思想^[3]是用概念间的共享信息作为度量相似性的依据，方法是从语义网中获得概念间的共享信息，从语料库的统计数据中获得共享信息的信息量，综合两者计算概念间的相似性。这种方法基于一个假设：概念在语料库中出现的频率越高，则越抽象，信息量越小。例如表2.1中Resnik的方法^[3]，Jiang和Conrath的方法^[13]，Lin的方法^[20]。

6) 概念的释义。在基于词典的模型中--不论是基于传统词典，还是基于语义词典--词典被视为一个闭合的自然语言解释系统，每一个单词都被词典中其他的单词所解释。如果两个单词的释义词汇集重叠程度越高，则表明这两个单词越相似。例如表2.1中Banerjee和Pedersen的方法^[4]，Patwardhan等人的方法^[21]，刘群的方法^[8]。

将上述六个因素进一步合并，则可归为三大因素：结构特点，信息量和概念释义。那么按照方法主要利用到的词典的特点，表2.1中所列举10种方法可以分为三种类型，考虑结构特点、考虑信息量和利用概念释义。表2.1中第一列分别标记方法所属类别。

目前，本研究中采用的语义词典是扩展并改进后的《同义词词林》。该词典本身结构与WordNet类似，所以前四种方法可以实现。在加入2000年《人民日报》语料库的词频统计结果^[22]之后，Resnik的方法^[3]，Jiang-Conrath方法^[13]和Lin的方法^[20]同样可以实现。但是，《同义词词林》中不包含注解，所以Banerjee-Pedersen^[4]和Patwardhan^[21]不适用于我们的实验。所以在最终的实验中，本研究实现了Hirst-St-Onge^[14]、Path(最短路径)、Wu-Palmer^[18]、