EASE：一种融合实体信息的句子嵌入对比学习方法

最新推荐文章于 2023-11-26 15:06:12 发布

刘聪NLP

最新推荐文章于 2023-11-26 15:06:12 发布

阅读量453

点赞数

文章标签：知识图谱自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lc_love_ty/article/details/125248358

版权

写在前面

大家好，我是刘聪NLP。

今天给大家带来一篇NAACL2022论文，一种融合实体信息的句子嵌入对比学习方法，全名为《EASE: Entity-Aware Contrastive Learning of Sentence Embedding》。主要在传统的句子和句子之间的对比学习中，融入句子和实体的对比学习，提高最终句向量模型的效果。

paper地址：https://arxiv.org/pdf/2205.04260.pdf
code地址：https://github.com/studio-ousia/ease

介绍

句向量表征技术目前已经通过对比学习获取了很好的效果。而对比学习的宗旨就是拉近相似数据，推开不相似数据，有效地学习数据表征。并且，实体是一个句子的重要部分，可以作为一个句子的指示器，通过学习实体与句子之间的差异，可以为句子向量的学习提供额外信息。

该篇论文还验证了融入实体信息后，在多语言上的句向量表现，不过本次解读忽略多语言的部分，感兴趣的同学可以自行阅读原文。

EASE模型的损失主要由两个部分组成：（1）句子与实体之间的实体对比学习损失；（2）带dropout噪声的句子自监督对比学习损失。

模型

如何获取实体-句子pair数据？

EASE模型的训练数据主要来自维基百科中带有「实体超链接」的文本内容，将超链接实体作为与文本内容相关的实体，构建实体-句子pair数据。为了提高实体质量，仅保留超链接实体出现次数超过10次的实体。

正例实体获取后，如何获取负例实体呢？针对负例实体需要满足两个条件：

负例实体需要与正例实体具有相同的类型；
负例实体不能与正例实体出现在同一维基百科页面中。

最后，随机在满足上诉条件的候选实体中选择一个实体作为硬负例数据，构建（句子，正例实体，负例实体）的triple数据，如下图所示，

实体-句子对比损失

给定一个triple数据，其中表示句子，表示句子对应的正例实体，表示句子对应的负例实体，优化目标采用过in-batch negatives交叉熵损失函数，如下：

其中，为一个可训练矩阵，为温度超参，为余弦相似度。

针对上面实体的词嵌入是可训练的词嵌入表示，初始参数从在维基百科数据上使用Wikipedia2Vec工具训练得来，向量维度为768。

句子自监督对比损失

该部分采用SimCSE中的方法，利用随机dropout masks机制，对原始句子构造正里样本，利用batch内其他样本作为负例样本，构建对比学习损失，具体如下：

最终，EASE模型的损失为：

其中，是一个平衡实体-句子对比损失和句子自监督对比损失的超参数。

实验结果

如下表所示，在7个STS相似度计算数据上和8个短文本聚类数据上，EASE模型取得了不错的效果。

并且进行了消融实验，证明增加实体对比学习是有效的。其实该篇论文在多语言上的效果更为突出，并提出了一个多语言短文本聚类数据集MewsC-16。

总结

从实验结果上来看，在单语言上的效果提高没有那么显著，但是增加实体信息这一操作是我比较认可的。在进行某一任务时，我们需要思考如何可以更加充分地挖掘可利用信息。在不改变模型结构的前提下，增加额外信息，是提高效果最有效的办法。

整理不易，请多多点赞，关注，有问题的朋友也欢迎加我微信「logCong」、公众号「NLP工作站」、知乎「刘聪NLP」私聊，交个朋友吧，一起学习，一起进步。

我们的口号是“生命不止，学习不停”。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
EASE：一种融合实体信息的句子嵌入对比学习方法

今天给大家带来一篇NAACL2022论文，一种融合实体信息的句子嵌入对比学习方法，全名为《EASE: Entity-Aware Contrastive Learning of Sentence Embedding》。主要在传统的句子和句子之间的对比学习中，融入句子和实体的对比学习，提高最终句向量模型的效果。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。