再看SimCSE

最新推荐文章于 2024-08-05 10:19:04 发布

HxShine

最新推荐文章于 2024-08-05 10:19:04 发布

阅读量737

点赞数

分类专栏： nlp_paper nlp学习 nlp 文章标签：聚类机器学习算法文本相似度 SimCSE

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16949707/article/details/122412740

版权

nlp 同时被 3 个专栏收录

97 篇文章 3 订阅

订阅专栏

75 篇文章 7 订阅

订阅专栏

61 篇文章 2 订阅

订阅专栏

一、概述

在这里插入图片描述

二、要点分析原始ppt解读

2.1 作用：语义表达作用检索+聚类

在这里插入图片描述

2.2 简述：简单的对比学习来做语义表征

预训练+对比学习：最佳的语义表征方法
- 无监督：dropout
- 有监督：NLI 蕴含+矛盾数据
原理：
- 利用对比学习目标，将预训练的embedding进行uniform化
- 利用监督数据，aligns对齐相同语句的embedding表达

2.3 原理：对比学习原理

拉近邻居，push非邻居

2.4 目标函数：无监督学习目标函数

正样本：相同句子，独立的dropout mask
负样本：batch内，其他句子的embedding

2.5 目标函数：监督学习目标函数

正样本：NLI数据集蕴含样本
负样本：batch内的负样本+矛盾样本，原来是两部分啊？相当于利用标注的负样本做了一个补充

2.6 主要评估方法：语义相似度任务，而非下游文本分类任务

在这里插入图片描述

2.7 结果：无监督学习结果

在这里插入图片描述

2.8 结果：监督学习结果

在这里插入图片描述

2.9 原因分析：为啥能更好呢？构造无监督正样本对的方法不一样

SimCSE：dropout
其他方法：
- 下个句子增强
- 同义词替换
- crop
- 删除
优点总结：
- 用他自己来做正样本>>下一个句子来做正样本
- dropout增强>>其他数据增强

2.10 embedding表征特点分析：embedding各向异性分析

预训练模型好的alignment，差的uniformity
后处理可以改进uniformity
SimCSE：改进uniformity并且保持好的alignment性质

2.11 最终效果

在这里插入图片描述

2.12 总结

SimCSE：对比学习来做句子embedding
- 无监督：标准dropout来做正样本对
- 有监督：entailment做正样本，contradiction来做难样本
原因：
- 可以利用alignment和uniformity来分析不同的模型
- 理论显示对比学习能改进embedding的uniformity

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
再看SimCSE

一、概述二、要点分析原始ppt解读2.1 作用：语义表达作用检索+聚类2.2 简述：简单的对比学习来做语义表征预训练+对比学习：最佳的语义表征方法无监督：dropout有监督：NLI 蕴含+矛盾数据原理：利用对比学习目标，将预训练的embedding进行uniform化利用监督数据，aligns对齐相同语句的embedding表达2.3 原理：对比学习原理拉近邻居，push非邻居2.4 目标函数：无监督学习目标函数正样本：相同句子，独立的dropout
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。