【论文阅读】一种用于消歧和语义表示的统一模型 A Unified Model for Word Sence Representation and Disambiguation

【论文阅读】一种用于消歧和语义表示的统一模型 A Unified Model for Word Sence Representation and Disambiguation

问题

大多语言表述(represent)方法假设一个单词有单个语义(semantic),需要进行消歧。

解决方案

提出了一个联合模型用于解决语言表述和消歧问题。核心idea是语言表述问题(WSR)和消歧问题(WSD)相互增益:高质量的WSR拥有丰富信息,对WSD有帮助;WSD提供语料库用于WSR。

模型搭建

2.1节介绍了语义(sense)数据库WordNet,进行了概念的定义。

在这里插入图片描述

2.2到2.4介绍了模型训练的三个阶段,分别是:使用Skip-gram(中心词预测周围词)进行词向量初始化,使用"阈值筛选"进行词语义初始化;利用两种算法进行语义消歧;改进Skip-gram训练目标,学习语义向量。

  • stage1:词向量和语义初始化。词向量直接使用Skip-gram即可,词语义方法为u的词向量均值(公式3和公式4),u是单词w在大语料库中获得的每个sense中的词汇,在当前sence的所有u中,筛选出:

    • 词性必须属于【动词,名词,副词,形容词】
    • 和单词的cos相似度大于设定阈值

    在这里插入图片描述
    在这里插入图片描述

  • stage2:针对一个句子中所有单词进行消歧。共有|Sense(wi)|相乘个可能的结果,其中Sense(wi)为该单词对应的所有语义。文章提出L2R算法(从左到右)和S2C算法(从简单到复杂),利用语义,对单词进行消歧。这两种算法的主要区别在于计算的顺序,前者遵循正常的阅读顺序,后者核心观念是语义越少的单词越容易被正确消歧。这两种算法都有三个步骤:

    • 初始化:类似于语义的初始化,此处对context的初始化使用的是所有上下文content向量的平均值(公式5)。
      在这里插入图片描述

    • 排序:L2R算法无须排序,S2C算法按照语义从少到多排序。

    • 消歧:按照排序后的单词,跳过无须消歧的单词,对于需要消歧的单词,计算其向量和语义向量的余弦相似度。如果该相似度margin(第一个和第二个相似的差值)小于规定的阈值,则使用语义向量替换该初始化的向量。以此更新content向量,来辅助同一个句子中其他单词的消歧。

  • stage3:根据消歧后的结果,利用Skip-gram重新训练sense向量,修改了目标函数为公式6,此时期望 根据单词t预测的周围词汇的词向量嵌入表示 x 语义嵌入表示最小,也就是正确预测单词概率和正确预测语义的概率,以此更新定义的模型中M的参数。这里使用层次softmax减少计算复杂度。

在这里插入图片描述

实验

举例&相似度 for WSR

举例中给出了识别出的sense的最近邻词汇(表2)。可以看到其对于词汇的解释效果。
在这里插入图片描述
利用SCWS数据集(一对单词拥有自己的上下语境,人工评估的相似度),计算了spearman系数来评估。这里给出了三个模型(单向量模型,这里存疑,意思是使用的之前利用大语料库训练的向量?,使用上下文+AvgSim,使用上下文+AvgSimC)。
在这里插入图片描述

基于特定领域&粗力度全词 for WSD

利用领域词汇进行对比实验,召回率作为指标。
在这里插入图片描述

利用wikidata进行对比实验,并且验证了S2C优于L2R,F1score作为指标。

参数影响

余弦相似度对结果的影响,从没有一个词被筛去(-0.1),到筛去了几乎一半的词(0.3),0.0附近的结果最好。筛去过少会引入负例,筛去过多舍去了正例。

在这里插入图片描述

总结与展望

总结

回顾了前人的工作,从一个单词对应的单语义表示,到多语义表示,到和消歧结合。对于消歧工作,一般有两种,基于监督学习or基于知识,总结了基于知识的语料库扩展工作,单词表示可以包含语义和句法信息

展望

  • 在模型中加入聚类方法以应对新语义的出现
  • 利用其他WSD方法提升模型性能,如LDA等
  • 利用语义之间的上下文关系

思考

  • 基于idea,能否使用gan?利用论文中模型M进行生成,对标正确语义match程度。半监督->监督。
  • 词向量表示和语义是两个指标,又相互影响,发掘其中的关系。
  • 与wordnet的对应,可以应用至基于知识的消歧,也可应用于图谱。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值