Exploring Patterns in Dictionary definitions for Synonym Extraction
探索字典定义中同义词提取的模式
摘要
** 提出了从字典定义中提取同义词的三种新方法。其中两种是基于规则的系统,一种是基于最大熵分类的机器学习方法。 与基于语料库的方法相比,所提出的方法都具有计算量小、复杂度低、易于跨领域、跨语言适应等特点。
方法的流程!!!
(1)反指数提取
1、探索 definiendum(被下定义的词)和definientia(定义项)之间的关系
–在字典上构建一个倒转索引(命名为倒转索引提取IIE)
倒转索引中的每一行l = (t, S)由一个目标单词t组成,我们要提取其中的同义词,然后是一个集合S = {w: t∈dfn(w)},其中的单词定义文本中有t。在这里,dfn(w)指的是w这个词的定义集。
(表1显示了look的IIE结果。目标单词look的许多近义词都被成功识别了)
2、降低误报的方法:
A. 为每个目标单词指定词性(POS)
B. 基于字典图的局部连通性–很多后缀相同的词为下位词,而不是同义词。
(表2,通过对目标词fear的连通性来辨别单词)
(2)基于模式的提取(称为PbE)
1、作用: IIE提取的同义词的数量在很大程度上取决于目标词的出现频率,如果目标词很少见,那么同义词的数量就会大大减少,因此也就不太可能出现在其他词的定义中。因此,基于模式的提取的提取策略来缓解这一问题。
2、算法实现:
(本文中使用的正则表达式的表示法)
(算法1) 简单的基于模式的提取
我们的pbE算法发现定义文本中同义词的出现模式。给定一组模式P = {P,…1, p}, PbE查看目标单词w的每个定义,并提取其中任何一个模式下的单词作为同义词。n在实践中,模式ptake的形式是正则表达式,例如,’ ^.😭\w+).$ ‘。i 表3给出了本文中使用的正则表达式的表示法。如果定义文本与此模式匹配,则与regex组’ (\w+) '对应的单词s将被建议作为同义词。例如,如果目标单词是w = ’ separate ‘,那么它的一个定义是’ separate: to disconnect;disunite '匹配一个模式p = ’ ^.😭\w+)$ '和s = ’ disunite ‘被认为是w的同义词。这种情况被称为’在单词s上匹配模式p的定义’,如算法1中的第1行所示。
(算法2) 将IIE合并到PbE中
算法2在算法1提取的目标词w的同义词集resultSet的基础上,通过额外的字典遍历来提高PbE的覆盖率。重复执行算法1将导致同义词的树状增长模式。
(下图为算法1和算法2中结果集大小的不同增长模式)
(3)模式引导
1、作用: 既可以获得新的同义词模式,又可以在最少的硬连接或人为干预的情况下适应变化。
2、实现:(下图为从引导建议的模式中手动选择的模式列表)
(4)字典的传递闭包
1、定义:
我们可以将PbE的输出看作一个树结构,树的根是目标单词w,第一轮PbE中提取的近义词的直接子元素(S = {S,…1,年代})。n当PbE有多个迭代时,取每个同义词s∈s为一个子树的根,从中萌发出更多的拟同义词。i 随着s深度的增加,w与子节点s之间的同义程度必然会降低。但是,由于字典定义的循环性,必然存在这样的情况,即经过多次迭代后,树中的某些路径会返回到w。这里,我们将w与自身之间的非空路径p称为字典图上的传递闭包,而传递闭包过滤背后的直觉是,与那些“游离”且永远不会回来的词相比,这些路径上的词应该更接近目标词。
(下图为传递闭包过滤–对提取的同义词使用粗体,删除过滤后的单词)
(4)最大熵提取
1、作用:
虽然PbE显示出很好的提取精度(第3节),但由于模式数量有限,覆盖率仍然很低。这激发了一般的学习方法,以更通用的方式对待定义文本。作为初始尝试机器学习方法提取同义词的定义,我们制定同义词提取任务作为一个标签问题:每个单词在一块定义文本是一个决策点,和一个最大熵(MaxEnt)分类器训练来决定一个词是同义词的相应的被下定义的词。
2、培训数据:
培训数据包括《麦考瑞字典》中的186 954个定义项目(definiendum和相应的defini)。在后置标签之后,给定定义文本中的任何单词都被标记为definiendum的同义词,前提是该单词与definiendum具有相同的词性(1)和definiendum具有相同的词性(2)。6
3、实现方法:
我们选择opennlp。具有广义迭代缩放(GIS)能力的分类器的maxent实现。7 对于给定目标单词的每个单词,我们使用词法特征(前一个、当前和下一个单词)、单字母词性特征(前一个、当前和下一个词性)和双字母词性特征(前一个和下一个词性双字母)。另外,另一组特性通过从1到定义文本长度的整数计数器来描述每个决策点的位置。为了捕获PbE中讨论的分隔符(例如分号),包含了第二个位置计数器,它在遇到任何分隔符时重置为1。
—————————————————————————————————————
实验评估
1、一种同义词评价的方法是建立同义词和语义相似度之间的映射。
对于任何一对词w,相似度度量都可以通过计算这对词的同义词集S= {S,…1 2i i1, s}, i = 1,2(因此,Jaccard相似性)。ini wand之间的语义相似度为:1 ,2
2、一种评估方式是使用提取的同义词来解决托福同义词问题。
对于托福同义词试题,现在可以计算出试题单词与每个考生之间的相似度,分数最高的考生就是建议的正确答案。