Exploring Patterns in Dictionary definitions for Synonym Extraction阅读笔记

Exploring Patterns in Dictionary definitions for Synonym Extraction

探索字典定义中同义词提取的模式


摘要

** 提出了从字典定义中提取同义词的三种新方法。其中两种是基于规则的系统,一种是基于最大熵分类的机器学习方法。 与基于语料库的方法相比,所提出的方法都具有计算量小、复杂度低、易于跨领域、跨语言适应等特点。


方法的流程!!!

(1)反指数提取

1、探索 definiendum(被下定义的词)和definientia(定义项)之间的关系
在字典上构建一个倒转索引(命名为倒转索引提取IIE

倒转索引中的每一行l = (t, S)由一个目标单词t组成,我们要提取其中的同义词,然后是一个集合S = {w: t∈dfn(w)},其中的单词定义文本中有t。在这里,dfn(w)指的是w这个词的定义集。

(表1显示了look的IIE结果。目标单词look的许多近义词都被成功识别了)
好啊


2、降低误报的方法:

A. 为每个目标单词指定词性(POS)

B. 基于字典图的局部连通性–很多后缀相同的词为下位词,而不是同义词。

(表2,通过对目标词fear的连通性来辨别单词)
在这里插入图片描述


(2)基于模式的提取(称为PbE

1、作用: IIE提取的同义词的数量在很大程度上取决于目标词的出现频率,如果目标词很少见,那么同义词的数量就会大大减少,因此也就不太可能出现在其他词的定义中。因此,基于模式的提取的提取策略来缓解这一问题。

2、算法实现:

(本文中使用的正则表达式的表示法)
在这里插入图片描述

(算法1) 简单的基于模式的提取
在这里插入图片描述

我们的pbE算法发现定义文本中同义词的出现模式。给定一组模式P = {P,…1, p}, PbE查看目标单词w的每个定义,并提取其中任何一个模式下的单词作为同义词。n在实践中,模式ptake的形式是正则表达式,例如,’ ^.😭\w+).$ ‘。i 表3给出了本文中使用的正则表达式的表示法。如果定义文本与此模式匹配,则与regex组’ (\w+) '对应的单词s将被建议作为同义词。例如,如果目标单词是w = ’ separate ‘,那么它的一个定义是’ separate: to disconnect;disunite '匹配一个模式p = ’ ^.😭\w+)$ '和s = ’ disunite ‘被认为是w的同义词。这种情况被称为’在单词s上匹配模式p的定义’,如算法1中的第1行所示。

(算法2) 将IIE合并到PbE中
在这里插入图片描述
算法2在算法1提取的目标词w的同义词集resultSet的基础上,通过额外的字典遍历来提高PbE的覆盖率。重复执行算法1将导致同义词的树状增长模式。

(下图为算法1和算法2中结果集大小的不同增长模式)
在这里插入图片描述


(3)模式引导

1、作用: 既可以获得新的同义词模式,又可以在最少的硬连接或人为干预的情况下适应变化。

2、实现:(下图为从引导建议的模式中手动选择的模式列表)
在这里插入图片描述


(4)字典的传递闭包

1、定义:

我们可以将PbE的输出看作一个树结构,树的根是目标单词w,第一轮PbE中提取的近义词的直接子元素(S = {S,…1,年代})。n当PbE有多个迭代时,取每个同义词s∈s为一个子树的根,从中萌发出更多的拟同义词。i 随着s深度的增加,w与子节点s之间的同义程度必然会降低。但是,由于字典定义的循环性,必然存在这样的情况,即经过多次迭代后,树中的某些路径会返回到w。这里,我们将w与自身之间的非空路径p称为字典图上的传递闭包,而传递闭包过滤背后的直觉是,与那些“游离”且永远不会回来的词相比,这些路径上的词应该更接近目标词。

(下图为传递闭包过滤–对提取的同义词使用粗体,删除过滤后的单词)
## 第三节


(4)最大熵提取

1、作用:

虽然PbE显示出很好的提取精度(第3节),但由于模式数量有限,覆盖率仍然很低。这激发了一般的学习方法,以更通用的方式对待定义文本。作为初始尝试机器学习方法提取同义词的定义,我们制定同义词提取任务作为一个标签问题:每个单词在一块定义文本是一个决策点,和一个最大熵(MaxEnt)分类器训练来决定一个词是同义词的相应的被下定义的词。

2、培训数据:

培训数据包括《麦考瑞字典》中的186 954个定义项目(definiendum和相应的defini)。在后置标签之后,给定定义文本中的任何单词都被标记为definiendum的同义词,前提是该单词与definiendum具有相同的词性(1)和definiendum具有相同的词性(2)。6

3、实现方法:

我们选择opennlp。具有广义迭代缩放(GIS)能力的分类器的maxent实现。7 对于给定目标单词的每个单词,我们使用词法特征(前一个、当前和下一个单词)、单字母词性特征(前一个、当前和下一个词性)和双字母词性特征(前一个和下一个词性双字母)。另外,另一组特性通过从1到定义文本长度的整数计数器来描述每个决策点的位置。为了捕获PbE中讨论的分隔符(例如分号),包含了第二个位置计数器,它在遇到任何分隔符时重置为1。

—————————————————————————————————————

实验评估

1、一种同义词评价的方法是建立同义词和语义相似度之间的映射。

对于任何一对词w,相似度度量都可以通过计算这对词的同义词集S= {S,…1 2i i1, s}, i = 1,2(因此,Jaccard相似性)。ini wand之间的语义相似度为:1 ,2
在这里插入图片描述

2、一种评估方式是使用提取的同义词来解决托福同义词问题。

对于托福同义词试题,现在可以计算出试题单词与每个考生之间的相似度,分数最高的考生就是建议的正确答案。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值