【论文阅读-对比学习】ConSERT- A Contrastive Framework for Self-Supervised Sentence Representation Transfer

今天继续来看对比学习的一篇论文,比SimCSE稍晚几个月发的,主要关注在embeddings层的不同的数据增强方式。
该阅读笔记首发于:https://zhuanlan.zhihu.com/p/481581904

Title: ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer

From: ACL 2021

Link: https://aclanthology.org/2021.acl-long.393/

Code: https://github.com/yym6472/ConSERT

在计算句子相似度时,可以看到BERT生成的句向量相似度偏高,也就是embeddings都被映射到一个小区域(各向异性),无法进行有效区分。这两张图和上一篇的图类似,上一篇的图中横纵坐标是相似度和编辑距离,这篇论文的图是gold相似度和predicted相似度。

image-20220315200459639

Motivation:

预训练得到的向量表现不佳,对其进行微调又需要大量的标注数据,如何在减少标注数据量的情况下来微调预训练模型,使其在下游任务上提升性能呢?

创新点:

  1. 在未标注的数据集上微调预训练模型,达到embeddings在下游任务上的迁移与适配;

  2. 研究对比学习框架中多种数据增强策略;

数据增强策略

选用了4种方式来构建对比学习的正负例。

image-20220315205348949

1. 对抗攻击:利用梯度反传加入对抗扰动,需要有监督

2. Token Shuffling:打乱句子中tokens的顺序

3. Cutoff:随机删除横向或者纵向的特征

4. Dropout:和SimCSE一样,做dropout

这些数据增强也都是在embedding层做的,而不是在原始的文本上做,避免其带来的语义变化问题。

实验

  • 主实验

ConSERT的性能要比SimCSE差。论文的后续实验结果发现,几种数据增强方式中,dropout的作用在比较靠后的位置。和SimCSE对比下,可以看到两篇论文用dropout的方式是不同的。

SimCSE 用的是预训练模型自带的dropout,是把text输入模型两次,得到两个随机dropout的表示;此外没有再额外增加dropout层。

ConSERT是将预训练得到的embeddings送入自己添加的dropout层,得到一个增广的数据。

(这就导致了性能差别这么大嘛)

  • 其他实验

除了STS的几个数据集上的实验结果,文章还给出了在few-shot下模型的鲁棒性。

image-20220315215558304

总之还是不错的工作,相比于之前的方法有了突破,但是在SimCSE的光辉下,显得有点弱了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值