Exploring Patterns in Dictionary definitions for Synonym Extraction阅读笔记

最新推荐文章于 2024-09-01 23:36:16 发布

Miss_DDD

最新推荐文章于 2024-09-01 23:36:16 发布

阅读量194

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/Miss_DDD/article/details/104755202

版权

Exploring Patterns in Dictionary definitions for Synonym Extraction

探索字典定义中同义词提取的模式

摘要

** 提出了从字典定义中提取同义词的三种新方法。其中两种是基于规则的系统，一种是基于最大熵分类的机器学习方法。 与基于语料库的方法相比，所提出的方法都具有计算量小、复杂度低、易于跨领域、跨语言适应等特点。

方法的流程！！！

（1）反指数提取

1、探索 definiendum（被下定义的词）和definientia（定义项）之间的关系
–在字典上构建一个倒转索引（命名为倒转索引提取IIE）

倒转索引中的每一行l = (t, S)由一个目标单词t组成，我们要提取其中的同义词，然后是一个集合S = {w: t∈dfn(w)}，其中的单词定义文本中有t。在这里，dfn(w)指的是w这个词的定义集。

（表1显示了look的IIE结果。目标单词look的许多近义词都被成功识别了）

2、降低误报的方法：

A. 为每个目标单词指定词性(POS)

B. 基于字典图的局部连通性–很多后缀相同的词为下位词，而不是同义词。

（表2，通过对目标词fear的连通性来辨别单词）
在这里插入图片描述

（2）基于模式的提取（称为PbE）

1、作用： IIE提取的同义词的数量在很大程度上取决于目标词的出现频率，如果目标词很少见，那么同义词的数量就会大大减少，因此也就不太可能出现在其他词的定义中。因此，基于模式的提取的提取策略来缓解这一问题。

2、算法实现：

（本文中使用的正则表达式的表示法）
在这里插入图片描述

（算法1） 简单的基于模式的提取
在这里插入图片描述

我们的pbE算法发现定义文本中同义词的出现模式。给定一组模式P = {P，…1， p}， PbE查看目标单词w的每个定义，并提取其中任何一个模式下的单词作为同义词。n在实践中，模式ptake的形式是正则表达式，例如，’ ^.😭\w+).$ ‘。i 表3给出了本文中使用的正则表达式的表示法。如果定义文本与此模式匹配，则与regex组’ (\w+) '对应的单词s将被建议作为同义词。例如，如果目标单词是w = ’ separate ‘，那么它的一个定义是’ separate: to disconnect;disunite '匹配一个模式p = ’ ^.😭\w+)$ '和s = ’ disunite ‘被认为是w的同义词。这种情况被称为’在单词s上匹配模式p的定义’，如算法1中的第1行所示。

（算法2） 将IIE合并到PbE中
在这里插入图片描述
算法2在算法1提取的目标词w的同义词集resultSet的基础上，通过额外的字典遍历来提高PbE的覆盖率。重复执行算法1将导致同义词的树状增长模式。

（下图为算法1和算法2中结果集大小的不同增长模式）
在这里插入图片描述

（3）模式引导

1、作用： 既可以获得新的同义词模式，又可以在最少的硬连接或人为干预的情况下适应变化。

2、实现：（下图为从引导建议的模式中手动选择的模式列表）
在这里插入图片描述

（4）字典的传递闭包

1、定义：

我们可以将PbE的输出看作一个树结构，树的根是目标单词w，第一轮PbE中提取的近义词的直接子元素(S = {S，…1,年代})。n当PbE有多个迭代时，取每个同义词s∈s为一个子树的根，从中萌发出更多的拟同义词。i 随着s深度的增加，w与子节点s之间的同义程度必然会降低。但是，由于字典定义的循环性，必然存在这样的情况，即经过多次迭代后，树中的某些路径会返回到w。这里，我们将w与自身之间的非空路径p称为字典图上的传递闭包，而传递闭包过滤背后的直觉是，与那些“游离”且永远不会回来的词相比，这些路径上的词应该更接近目标词。

（下图为传递闭包过滤–对提取的同义词使用粗体，删除过滤后的单词)
## 第三节

（4）最大熵提取

1、作用：

虽然PbE显示出很好的提取精度(第3节)，但由于模式数量有限，覆盖率仍然很低。这激发了一般的学习方法，以更通用的方式对待定义文本。作为初始尝试机器学习方法提取同义词的定义,我们制定同义词提取任务作为一个标签问题:每个单词在一块定义文本是一个决策点,和一个最大熵(MaxEnt)分类器训练来决定一个词是同义词的相应的被下定义的词。

2、培训数据：

培训数据包括《麦考瑞字典》中的186 954个定义项目(definiendum和相应的defini)。在后置标签之后，给定定义文本中的任何单词都被标记为definiendum的同义词，前提是该单词与definiendum具有相同的词性(1)和definiendum具有相同的词性(2)。6

3、实现方法：

我们选择opennlp。具有广义迭代缩放(GIS)能力的分类器的maxent实现。7 对于给定目标单词的每个单词，我们使用词法特征(前一个、当前和下一个单词)、单字母词性特征(前一个、当前和下一个词性)和双字母词性特征(前一个和下一个词性双字母)。另外，另一组特性通过从1到定义文本长度的整数计数器来描述每个决策点的位置。为了捕获PbE中讨论的分隔符(例如分号)，包含了第二个位置计数器，它在遇到任何分隔符时重置为1。

—————————————————————————————————————

实验评估

1、一种同义词评价的方法是建立同义词和语义相似度之间的映射。

对于任何一对词w，相似度度量都可以通过计算这对词的同义词集S= {S，…1 2i i1， s}， i = 1,2(因此，Jaccard相似性)。ini wand之间的语义相似度为:1 ，2
在这里插入图片描述

2、一种评估方式是使用提取的同义词来解决托福同义词问题。

对于托福同义词试题，现在可以计算出试题单词与每个考生之间的相似度，分数最高的考生就是建议的正确答案。

Miss_DDD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Exploring Patterns in Dictionary definitions for Synonym Extraction阅读笔记

提出了从字典定义中提取同义词的三种新方法。**其中两种是基于规则的系统，一种是基于最大熵分类的机器学习方法。** 与基于语料库的方法相比，所提出的方法都具有计算量小、复杂度低、易于跨领域、跨语言适应等特点。
复制链接

扫一扫