©PaperWeekly 原创 · 作者|张琨
学校|中国科学技术大学博士生
研究方向|自然语言处理
论文标题:
CLEAR: Contrastive Learning for Sentence Representation
论文作者:
Zhuofeng Wu / Sinong Wang / Jiatao Gu / Madian Khabsa / Fei Sun / Hao Ma
论文链接:
https://arxiv.org/abs/2012.15466
动机
近两年,对比学习(Contrastive Learning)由于能够通过数据之间的关系,以无监督的形式充分学习数据的表征受到了大家的广泛关注,特别是 MoCo ,SimCLR 的方法的提出。而对比学习的一个关键思想就是如何构建对比的数据对,更细致的,如何构建正样本和负样本,更好的正样本和负样本能够帮助模型更好的理解数据。
因此,可以发现对比学习在 CV 领域首先有了效果,针对对比学习,图像可以通过旋转,裁剪,变换颜色等方法在不改变便签的情况下进行数据增强。但在 NLP 领域就出现困难了,文本数据如何进行增强,单纯的删除或者修改词及词序都会引起语义的变化。
因此,作者认为将对比学习引入到句子语义表征中是很有必要的,现有的预训练模型都是通过词级别的目标进行预训练的,而且单纯使用 [cls] 作为最终句子的语义表征不够充分。我们需要为本文中的对比学习设计更好的数据增强方法