Synonym extraction（同义词提取）阅读笔记

最新推荐文章于 2023-03-13 19:52:57 发布

Garee

最新推荐文章于 2023-03-13 19:52:57 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/Garee/article/details/104725029

版权

本文介绍了同义词提取的方法，包括依赖于上下文信息的相似度度量（如余弦相似度）、向量空间模型以及相互重排序法。在向量空间模型中，通过计算目标名词向量的余弦相似度来确定同义词。而相互排序法通过考虑查询词和候选词互相的排名来改进候选词列表。然而，对于“A is the coefficient for combine the mutual ranks between x and y”，文章并未详细解释该系数的具体含义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

从语料库中获取同义词对的常用方法通常需要基于两个词之间的上下文信息的相似度度量，例如 cosine similarity（余弦相似度）。此度量使我们能够检索与查询词相似的词，并从同义词候选列表中标识真正的同义词。我们进一步分析由相似度度量引入的词相似度网络，并对同义候选词进行重新排序——a mutual re-ranking method（MRM，一种互重排序方法）。

1、介绍

同义词的获取方法多种多样。其中，最流行的方法是based on distributional hypothesis（基于分布假设（Harris，1985）：它指出同义名词共享相似的上下文信息。这一假设如下：

从语料库中提取每个被认为重要的词的上下文特征的统计信息，然后用这些上下文特征的向量来表示每个词。
选择一个相似性度量，如余弦相似性，并将其应用于查询词对和同义候选词对，生成按相似度得分排序的同义候选词列表。
从排名列表中选择最优秀的候选词，他们被视为查询词的同义词。

我们使用的前两种上下文特征是dependency relations（依赖关系），即 the child and parent constituents 子成分和父成分。依存关系一般是指谓语-论据结构，对于英语来说，它包括动词的主语和宾语，以及名词的修饰语。第三种上下文特征是proximity（邻近性）。以同一句子中目标名词的相邻词（进行词和后继词

最低0.47元/天解锁文章