EASE:一种融合实体信息的句子嵌入对比学习方法

写在前面

大家好,我是刘聪NLP。

今天给大家带来一篇NAACL2022论文,一种融合实体信息的句子嵌入对比学习方法,全名为《EASE: Entity-Aware Contrastive Learning of Sentence Embedding》。主要在传统的句子和句子之间的对比学习中,融入句子和实体的对比学习,提高最终句向量模型的效果。

paper地址:https://arxiv.org/pdf/2205.04260.pdf
code地址:https://github.com/studio-ousia/ease

介绍

句向量表征技术目前已经通过对比学习获取了很好的效果。而对比学习的宗旨就是拉近相似数据,推开不相似数据,有效地学习数据表征。并且,实体是一个句子的重要部分,可以作为一个句子的指示器,通过学习实体与句子之间的差异,可以为句子向量的学习提供额外信息。

该篇论文还验证了融入实体信息后,在多语言上的句向量表现,不过本次解读忽略多语言的部分,感兴趣的同学可以自行阅读原文。

EASE模型的损失主要由两个部分组成:(1)句子与实体之间的实体对比学习损失;(2)带dropout噪声的句子自监督对比学习损失。

模型

如何获取实体-句子pair数据?

EASE模型的训练数据主要来自维基百科中带有「实体超链接」的文本内容,将超链接实体作为与文本内容相关的实体,构建实体-句子pair数据。为了提高实体质量,仅保留超链接实体出现次数超过10次的实体。

正例实体获取后,如何获取负例实体呢?针对负例实体需要满足两个条件:

  • 负例实体需要与正例实体具有相同的类型;

  • 负例实体不能与正例实体出现在同一维基百科页面中。

最后,随机在满足上诉条件的候选实体中选择一个实体作为硬负例数据,构建(句子,正例实体,负例实体)的triple数据,如下图所示,

实体-句子对比损失

给定一个triple数据,其中表示句子,表示句子对应的正例实体,表示句子对应的负例实体,优化目标采用过in-batch negatives交叉熵损失函数,如下:

其中,为一个可训练矩阵,为温度超参,为余弦相似度。

针对上面实体的词嵌入是可训练的词嵌入表示,初始参数从在维基百科数据上使用Wikipedia2Vec工具训练得来,向量维度为768。

句子自监督对比损失

该部分采用SimCSE中的方法,利用随机dropout masks机制,对原始句子构造正里样本,利用batch内其他样本作为负例样本,构建对比学习损失,具体如下:

最终,EASE模型的损失为:

其中,是一个平衡实体-句子对比损失和句子自监督对比损失的超参数。

实验结果

如下表所示,在7个STS相似度计算数据上和8个短文本聚类数据上,EASE模型取得了不错的效果。

并且进行了消融实验,证明增加实体对比学习是有效的。 其实该篇论文在多语言上的效果更为突出,并提出了一个多语言短文本聚类数据集MewsC-16。

总结

从实验结果上来看,在单语言上的效果提高没有那么显著,但是增加实体信息这一操作是我比较认可的。在进行某一任务时,我们需要思考如何可以更加充分地挖掘可利用信息。在不改变模型结构的前提下,增加额外信息,是提高效果最有效的办法。

整理不易,请多多点赞,关注,有问题的朋友也欢迎加我微信「logCong」、公众号「NLP工作站」、知乎「刘聪NLP」私聊,交个朋友吧,一起学习,一起进步。

我们的口号是“生命不止,学习不停”。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值