Abstract
- SimCSE, a Simple Contrastive Sentence Embedding framework
- 一种无监督方法:输入一个句子,并在一个对比学习目标下预测它自身,仅使用标准的 dropout 作为噪声
- 一种有监督方法:使用 NLI 数据集中的标注句子对
- 正样本: “entailment” pairs
- 负样本:“contradiction” pairs
- 实验结果
- 测试数据集:STS
- 指标:Spearman’s correlation
- 基于 BERTbase 的无监督和有监督方法得分分别为 76.3% 和 81.6%
- 对比学习目标使得预训练 embedding 的各向异性空间(anisotropic space)变得更加均匀,当有监督信号时,能够更好地对齐正样本对
- 代码:https://github.com/princeton-nlp/SimCSE
1 Introduction
本文展示了对比学习目标与 BERT (Devlin et al.,