关于语义相似度匹配的问题

麦格芬230

已于 2022-07-28 21:38:11 修改

阅读量529

点赞数 1

分类专栏：自然语言处理文章标签：算法人工智能自然语言处理

于 2022-07-28 21:10:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42295205/article/details/126043454

版权

自然语言处理专栏收录该内容

34 篇文章 2 订阅

订阅专栏

对比学习范式是什么？

对比学习的典型范式就是：代理任务+目标函数。代理任务和目标函数也是对比学习与有监督学习最大的区别。有监督学习的流程是输入，通过模型，得到输出，输出的和真实label（ground truth）通过目标函数计算损失，以此进行模型训练。而对于无监督学习或自监督学习来说，是没有ground truth的，那怎么办呢？代理任务就是来解决这个问题的，我们用代理任务来定义对比学习的正负样本，无监督学习一旦有了输出和真实的label，就需要有一个目标函数来计算两者的损失从而指导模型的学习方向。

CoSENT（Cosine Sentence）的损失函数是什么？

对于任意的正样本对和负样本对，使正样本对的相似度大于负样本对的相似度。

CoSENT（Cosine Sentence）跟SimCSE或对比学习有什么不同？

从损失函数的形式上来看两者确有一点相似之处，但含义完全不同的。

标准的SimCSE是只需要正样本对的（通过Dropout或者人工标注构建），然后它将batch内的所有其他样本都视为负样本；而有监督版的SimCSE则是需要三元组的数据，它实际上就是把困难样本补充到标准的SimCSE上，即负样本不只有batch内的所有其他样本，还有标注的困难样本，但同时正样本依然不能缺，所以需要“(原始句子, 相似句子, 不相似句子)”的三元组数据。

至于CoSENT，它只用到了标注好的正负样本对，也不包含随机采样batch内的其他样本来构建负样本的过程，我们也可以将它理解为对比学习，但它是“样本对”的对比学习，而不是像SimCSE的“样本”对比学习，也就是说，它的“单位”是一对句子而不是一个句子。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于语义相似度匹配的问题

而有监督版的SimCSE则是需要三元组的数据，它实际上就是把困难样本补充到标准的SimCSE上，即负样本不只有batch内的所有其他样本，还有标注的困难样本，但同时正样本依然不能缺，所以需要“(原始句子,相似句子,不相似句子)”的三元组数据。至于CoSENT，它只用到了标注好的正负样本对，也不包含随机采样batch内的其他样本来构建负样本的过程，我们也可以将它理解为对比学习，但它是“样本对”的对比学习，而不是像SimCSE的“样本”对比学习，也就是说，它的“单位”是一对句子而不是一个句子。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。