【论文阅读】一种用于消歧和语义表示的统一模型 A Unified Model for Word Sence Representation and Disambiguation

最新推荐文章于 2023-06-15 14:17:49 发布

Can__er

最新推荐文章于 2023-06-15 14:17:49 发布

阅读量525

点赞数

分类专栏： paper 文章标签：论文阅读 nlp 自然语言处理

本文链接：https://blog.csdn.net/can__er/article/details/126897608

版权

paper 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【论文阅读】一种用于消歧和语义表示的统一模型 A Unified Model for Word Sence Representation and Disambiguation

问题

大多语言表述（represent）方法假设一个单词有单个语义（semantic），需要进行消歧。

解决方案

提出了一个联合模型用于解决语言表述和消歧问题。核心idea是语言表述问题（WSR）和消歧问题（WSD）相互增益：高质量的WSR拥有丰富信息，对WSD有帮助；WSD提供语料库用于WSR。

模型搭建

2.1节介绍了语义（sense）数据库WordNet，进行了概念的定义。

在这里插入图片描述

2.2到2.4介绍了模型训练的三个阶段，分别是：使用Skip-gram（中心词预测周围词）进行词向量初始化，使用"阈值筛选"进行词语义初始化；利用两种算法进行语义消歧；改进Skip-gram训练目标，学习语义向量。

stage1：词向量和语义初始化。词向量直接使用Skip-gram即可，词语义方法为u的词向量均值（公式3和公式4），u是单词w在大语料库中获得的每个sense中的词汇，在当前sence的所有u中，筛选出：
- 词性必须属于【动词，名词，副词，形容词】
- 和单词的cos相似度大于设定阈值
stage2：针对一个句子中所有单词进行消歧。共有|Sense(wi)|相乘个可能的结果，其中Sense(wi)为该单词对应的所有语义。文章提出L2R算法（从左到右）和S2C算法（从简单到复杂），利用语义，对单词进行消歧。这两种算法的主要区别在于计算的顺序，前者遵循正常的阅读顺序，后者核心观念是语义越少的单词越容易被正确消歧。这两种算法都有三个步骤：
- 初始化：类似于语义的初始化，此处对context的初始化使用的是所有上下文content向量的平均值（公式5）。
- 排序：L2R算法无须排序，S2C算法按照语义从少到多排序。
- 消歧：按照排序后的单词，跳过无须消歧的单词，对于需要消歧的单词，计算其向量和语义向量的余弦相似度。如果该相似度margin（第一个和第二个相似的差值）小于规定的阈值，则使用语义向量替换该初始化的向量。以此更新content向量，来辅助同一个句子中其他单词的消歧。
stage3：根据消歧后的结果，利用Skip-gram重新训练sense向量，修改了目标函数为公式6，此时期望根据单词t预测的周围词汇的词向量嵌入表示 x 语义嵌入表示最小，也就是正确预测单词概率和正确预测语义的概率，以此更新定义的模型中M的参数。这里使用层次softmax减少计算复杂度。

在这里插入图片描述

实验

举例&相似度 for WSR

举例中给出了识别出的sense的最近邻词汇（表2）。可以看到其对于词汇的解释效果。
在这里插入图片描述
利用SCWS数据集（一对单词拥有自己的上下语境，人工评估的相似度），计算了spearman系数来评估。这里给出了三个模型（单向量模型，这里存疑，意思是使用的之前利用大语料库训练的向量？，使用上下文+AvgSim，使用上下文+AvgSimC）。
在这里插入图片描述