NLP(五十三)抽取式词义消歧(WSD)

  在文章NLP入门(九)词义消岐(WSD)的简介与实现中,笔者介绍了词义消歧的含义以及如何使用简单的算法来实现词义消歧。在本文中,笔者将介绍如何使用抽取式NLP模型来实现词义消歧(WSD),模型灵感来源于论文ExtEnD: Extractive Entity Disambiguation
  所谓词义消岐,指的是在特定的语境中,识别出某个歧义词的正确含义,即通常所说的一词多义。比如,苹果一词在句子我今天吃了一个苹果和句子苹果手机好用吗?中的含义是不同的,词义消歧需要对同一词语判断其在特定语境下的含义。词义消歧与实体链接有分别又有联系,后面将会介绍。
  在通常的NLP模型中,常常会把词义消歧任务当做文本分类去完成,取得了不错的效果。但论文ExtEnD: Extractive Entity Disambiguation提出了一种新的范式,它通过抽取式NLP模型(即阅读理解模型)来完成词义消歧,也取得了不错的效果。

词义消歧与实体链接

  应当说,词义消歧属于实体链接中的一部分。在实体链接(Entity Linking)任务中,一般分为三个阶段:

  • 实体识别
  • 候选词生成
  • 候选词匹配

在词义消歧中,同一词语的不同义项会作为候选词生成,在第三阶段的候选词匹配找到最接近的那个义项。我们以实体本草纲目为例,其在百度百科中共有15个义项,如下:
百度百科中的本草纲目义项
在特定的句子中,本草纲目的具体含义是可以确定的,看下面的例子:
实体链接例子
在上述句子中,本草纲目的正确义项应该是中医典籍,这是一个典型的实体链接任务,也可当作词义消歧任务。
  个人观点是,实体链接一般是将实体链接至图谱中的正确实体,而词义消歧稍微有点区别,绝大多数词语是图谱中的实体,但也有少部分仅仅是词语,而不是实体,比如汉语词语清风、指针等。因此,词义消歧可以通过实体链接很好地实现,但本文仅讨论如何通过抽取式NLP模型(新的范式)来实现词义消歧,以期该模型能在新的数据上有较好的表现。

数据介绍

  截止今日,笔者通过假期时间,共构建了26个词语,327个义项,2889条标注样本。绝大多数样本均来自于百度百科。每个样本均会给出文本、mention(待消歧词语)、正确义项以及url(正确义项对应网址),比如:

文本mention正确义项url
药圣李时珍和他的《本草纲目》本草纲目中医典籍https://baike.baidu.com/item/本草纲目/15342

  将标注数据划分为训练集和测试集,比例为8:2,训练集共有个2233样本,测试集共有656个样本。
  模型输入如下图:
模型输入
文本中的mention需要用特殊符号标识出来,比如用<e></e>标识,候选集集合组合输入为下一句,将</ec>标识添加至每个义项的结尾。

模型

  一般使用文本多分类或者文本多标签文本这个模型范式来进行正确义项匹配。本文借鉴Sapienza NLP Group, Sapienza University of Rome在ACL2022论文《ExtEnD: Extractive Entity Disambiguation》中给出的抽取式模型,使用较为简单的阅读理解模型(MRC)来实现。模型结构如下图所示:
抽取式词义消歧模型
  对标注数据进行模型训练,文本最大长度为500,batch size取16,训练12轮次,学习率取0.00001,在测试集上的Exact Match为0.9029。

模型预测

1. 在原有词语义项上的预测结果

  我们对标注过的词语苹果进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:【苹果的做法大全_苹果怎么做好吃_菜谱大全】_下厨房
正确义项:蔷薇科苹果属植物

苹果2022财年Q2业绩:手机业务增长亮眼 转型初见成效-股票…
正确义项:苹果产品公司

2. 在新词语义项上的预测结果

  我们对未标注过的词语南京进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:南京的饮食以金陵菜著名,金陵菜是指以南京为中心,一直延伸到江西九江的菜系,是苏菜的四大代表菜之一。
正确义项:江苏省辖地级市、省会

文本:影片制片人莱昂西斯是在2004年萌发拍摄纪录片《南京》的念头的。
正确义项:美国2007年雨果·阿姆斯特朗主演的电影

  我们对未标注过的词语平凡的世界进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:《平凡的世界》:永恒的魅力–文史–中国作家网
正确义项:路遥著长篇小说

文本:《平凡的世界》的主演是谁
正确义项:2015年王雷、佟丽娅、袁弘主演电视剧

  我们对未标注过的词语碧血剑进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:《碧血剑》是当代作家金庸先生的长篇武侠小说。大家都知道金庸老先生的著名小说都被翻拍成了电视剧,《碧血剑》也不例外。
正确义项:金庸创作长篇小说

文本:2000年版《碧血剑》是由李添胜监制,林家栋、佘诗曼、江华领衔主演的古装武侠电视剧。故事还原度并不是很高,这部剧中我真的很喜欢佘诗曼扮演的阿九啊!
正确义项:2000年香港TVB版林家栋主演电视剧

总结

  本项目已经开源至Github,网址为:https://github.com/percent4/WSD_With_Text_Extraction
  如有任何疑问,欢迎交流~

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值