Esimcse：Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding论

最新推荐文章于 2023-02-03 15:20:27 发布

HxShine

最新推荐文章于 2023-02-03 15:20:27 发布

阅读量1.1k

点赞数

分类专栏： nlp_paper nlp学习 nlp 文章标签：向量检索语义匹配语义相似度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16949707/article/details/123914567

版权

nlp 同时被 3 个专栏收录

97 篇文章 3 订阅

订阅专栏

75 篇文章 7 订阅

订阅专栏

61 篇文章 2 订阅

订阅专栏

1 Abstract

在这里插入图片描述

simcse：
1. 两个文本不同dropout放到transformer里面，无监督来学习
2. 可能的缺点：embedding的时候，两个句子的长度都是一致的，这里可能会有biased，因为线上可不是这样的。
3. 实验统计观察，发现确实有这样的biased
如何优化
1. repetition operation来减轻它的影响
2. momentum contrast？提高负样本对的数量？
效果：比无监督的simcse好了2.02%
ps：相关性统计指标
1. pearson:协方差除以各自标准差的乘积
2. spearman：排序秩的协方差除以排序秩的标准差的乘积，和量纲没有关系了
3. kendall
4. https://www.cnblogs.com/yjd_hycf_space/p/11537153.html

在这里插入图片描述

2 introduction

正样本
1. word级别的repeat，使语义不改变的情况下，改变句子的长度
负样本
2. 动量对比学习：先前batch内的一些样本，拿过来做负样本
3. batch内的负样本，长度本来就可能不一致，所以不会带来这个bias
比较了两个sentence长度不一样带来的spearman相关系数的差异，但是，是不是本来长度不一样，spearman相关性本来就差很多啊？
如果优化负样本的选择？
1. 理论上，对比学习是为了对比负样本和正样本，更多负样本理论上可以带来提升。
2. 直接增大batch_size来提高负样本的个数，gao 2021的论文证明不是一个好的方法，unsupSimCSE最佳的batch size是64，其他batch反而更差
3. Momentum contrast
  - 利用一个优先队列，把先前mini-batches里面的负样本放到queue里面进行利用，里面保存是之前的embedding
  - moing-average of its parameter -> generate enqueued sentence embedding，感觉像是一个移动窗口的平均值作为参数，去产生embedding
  - 在做momentum encoder的时候，关掉了dropout
贡献总结
1. 观察了无监督-SimCSE对比学习的长度偏见问题，并提出了简单的word repetition方法来减轻这个问题
2. 利用momentum contrast method去增加负样本，鼓励模型往更好的方向学习
3. 做实验证明了上面两点能持续的提高效果

在这里插入图片描述

3 Enhanced unsup-SimCSE

word repeat增强
momentum contrast

原始无监督-SimCSE的训练目标：
在这里插入图片描述

当前ESimCSE的训练目标：

利用了前面batch的数据增加负样本，相当于分母变大了，增加了更多负样本过来学习

4 Experiment

总体提升
每一类增强带来的提升

5 其他参考资料

三大相关系数: pearson, spearman, kendall（python示例实现）：https://www.cnblogs.com/yjd_hycf_space/p/11537153.html

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Esimcse：Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding论

1 Abstractsimcse：两个文本不同dropout放到transformer里面，无监督来学习可能的缺点：embedding的时候，两个句子的长度都是一致的，这里可能会有biased，因为线上可不是这样的。实验统计观察，发现确实有这样的biased如何优化repetition operation来减轻它的影响momentum contrast？提高负样本对的数量？效果：比无监督的simcse好了2.02%ps：相关性统计指标pearson:协方差除以各自标准差
复制链接

扫一扫

专栏目录

HxShine CSDN认证博客专家 CSDN认证企业博客

码龄10年

496: 原创

1万+: 周排名

1万+: 总排名

125万+: 访问

: 等级

1万+: 积分

1469: 粉丝

468: 获赞

163: 评论

1591: 收藏

私信

关注

热门文章

分类专栏

最新评论

SpanBERT学习
忆_恒心: 这个span 是怎么处理的呢
5 python numpy.expand_dims的用法
啥都不会的熊猫: 怎么还用python2呢？
ICLR 2023 | Self-Consistency: Google超简单方法改善大模型推理能力
eyulin9218: 感谢大神，读完后受益匪浅！有一个小问题请教：做完marginalize之后，是否还是需要调用一次大模型，让它对marginalize的结果进行总结输出？否则的话不就只能得到最终的一个答案，而没有任何推理过程了？
MRC Framework for Named Entity Recognition【代码解读】
GG BoY: 你好，想问下这篇文章的代码不是香农科技的那个代码吧（https://github.com/ShannonAI/mrc-for-flat-nested-ner）我下载的代码跟你完全不一样
几种分割loss
weixin_42052476: 如果有很多中文分析各种损失函数的好处就好了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。