【论文阅读】一种用于消歧和语义表示的统一模型 A Unified Model for Word Sence Representation and Disambiguation
问题
大多语言表述(represent)方法假设一个单词有单个语义(semantic),需要进行消歧。
解决方案
提出了一个联合模型用于解决语言表述和消歧问题。核心idea是语言表述问题(WSR)和消歧问题(WSD)相互增益:高质量的WSR拥有丰富信息,对WSD有帮助;WSD提供语料库用于WSR。
模型搭建
2.1节介绍了语义(sense)数据库WordNet,进行了概念的定义。
2.2到2.4介绍了模型训练的三个阶段,分别是:使用Skip-gram(中心词预测周围词)进行词向量初始化,使用"阈值筛选"进行词语义初始化;利用两种算法进行语义消歧;改进Skip-gram训练目标,学习语义向量。
-
stage1:词向量和语义初始化。词向量直接使用Skip-gram即可,词语义方法为u的词向量均值(公式3和公式4),u是单词w在大语料库中获得的每个sense中的词汇,在当前sence的所有u中,筛选出:
- 词性必须属于【动词,名词,副词,形容词】
- 和单词的cos相似度大于设定阈值
-
stage2:针对一个句子中所有单词进行消歧。共有|Sense(wi)|相乘个可能的结果,其中Sense(wi)为该单词对应的所有语义。文章提出L2R算法(从左到右)和S2C算法(从简单到复杂),利用语义,对单词进行消歧。这两种算法的主要区别在于计算的顺序,前者遵循正常的阅读顺序,后者核心观念是语义越少的单词越容易被正确消歧。这两种算法都有三个步骤:
-
初始化:类似于语义的初始化,此处对context的初始化使用的是所有上下文content向量的平均值(公式5)。
-
排序:L2R算法无须排序,S2C算法按照语义从少到多排序。
-
消歧:按照排序后的单词,跳过无须消歧的单词,对于需要消歧的单词,计算其向量和语义向量的余弦相似度。如果该相似度margin(第一个和第二个相似的差值)小于规定的阈值,则使用语义向量替换该初始化的向量。以此更新content向量,来辅助同一个句子中其他单词的消歧。
-
-
stage3:根据消歧后的结果,利用Skip-gram重新训练sense向量,修改了目标函数为公式6,此时期望 根据单词t预测的周围词汇的词向量嵌入表示 x 语义嵌入表示最小,也就是正确预测单词概率和正确预测语义的概率,以此更新定义的模型中M的参数。这里使用层次softmax减少计算复杂度。
实验
举例&相似度 for WSR
举例中给出了识别出的sense的最近邻词汇(表2)。可以看到其对于词汇的解释效果。
利用SCWS数据集(一对单词拥有自己的上下语境,人工评估的相似度),计算了spearman系数来评估。这里给出了三个模型(单向量模型,这里存疑,意思是使用的之前利用大语料库训练的向量?,使用上下文+AvgSim,使用上下文+AvgSimC)。
基于特定领域&粗力度全词 for WSD
利用领域词汇进行对比实验,召回率作为指标。
利用wikidata进行对比实验,并且验证了S2C优于L2R,F1score作为指标。
参数影响
余弦相似度对结果的影响,从没有一个词被筛去(-0.1),到筛去了几乎一半的词(0.3),0.0附近的结果最好。筛去过少会引入负例,筛去过多舍去了正例。
总结与展望
总结
回顾了前人的工作,从一个单词对应的单语义表示,到多语义表示,到和消歧结合。对于消歧工作,一般有两种,基于监督学习or基于知识,总结了基于知识的语料库扩展工作,单词表示可以包含语义和句法信息。
展望
- 在模型中加入聚类方法以应对新语义的出现
- 利用其他WSD方法提升模型性能,如LDA等
- 利用语义之间的上下文关系
思考
- 基于idea,能否使用gan?利用论文中模型M进行生成,对标正确语义match程度。半监督->监督。
- 词向量表示和语义是两个指标,又相互影响,发掘其中的关系。
- 与wordnet的对应,可以应用至基于知识的消歧,也可应用于图谱。