NAACL 2022 | DiffCSE：基于差异的句向量对比学习方法

最新推荐文章于 2024-11-01 16:54:23 发布

PaperWeekly

最新推荐文章于 2024-11-01 16:54:23 发布

阅读量656

点赞数

文章标签：机器学习人工智能深度学习 python 神经网络

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247570806&idx=2&sn=3cb9007e75238a979ef3a616686eea82&chksm=96eb0af6a19c83e02c4ca3d22fbf30d01174a8d8864fbe35e8cf30918f4b4d1e9dc7d7c9c91e&scene=126&&sessionid=0

版权

©作者 | 曾伟豪

单位 | 北京邮电大学

研究方向 | 对话摘要生成

论文标题：

DiffCSE：Difference-based Contrastive Learning for Sentence Embeddings

论文来源：

NAACL 2022

论文链接：

https://arxiv.org/pdf/2204.10298.pdf

代码链接：

https://github.com/voidism/DiffCSE

Motivation

通过对比学习来学习 sentence embeddings 的表示。一般的思路：对于单个样本利用 multiple augmentations 的方法来构造 positive pairs。这些方法的训练目标在于让 representations对于 augmentation transformation 是 invariant的。（比如常用的 dropout-based 的方法）

然而有些的 augmentation 的方法（如对 input 进行 deletion 或者 replacement）往往会改变原句的意思，因此，理想的 augmentation 方法应当对于这些 transformations 应当是 not invariat 的。

在计算机视觉领域，此为 equivariantcontrastive learning，通过在不敏感的 image transformations（如灰度变化）使用对比损失，而在敏感的 image transformations（如图片的旋转）上使用 prediction loss。

Contribution

实验表明 DiffCSE 在 unsupervised sentence representation learning methods 达到了 SOTA 的效果。在 se-mantic textual similarity tasks 上超越 SimCSE 2.3 个 absolute points。

Difference-based Contrastive Learning

作者的方法很简单，将 SimCSE 中标准的对比学习目标域与基于 sentence embeddings 的差异预测目标结合。

上图的左边即为 SimCSE 的训练目标：

上图的右边 ELECTRA 中差异预测训练目标的 conditional 版本。包括 generator 和 discriminator。

对于给定的长度为 T 的句子 x，在 x 上进行随机的 mask 以获得，使用预训练好的 MLM 模型作为 generator 来恢复 mask tokens，得到，使用 discriminator 来进行替换的 token 检测的任务（RTD），对于句子中的每一个 token，模型需要预测该 token 是否被替换。