再看SimCSE

75 篇文章 7 订阅
61 篇文章 2 订阅

一、概述

在这里插入图片描述

二、要点分析原始ppt解读

2.1 作用:语义表达作用检索+聚类

在这里插入图片描述

2.2 简述:简单的对比学习来做语义表征
  • 预训练+对比学习:最佳的语义表征方法
    • 无监督:dropout
    • 有监督:NLI 蕴含+矛盾数据
  • 原理:
    • 利用对比学习目标,将预训练的embedding进行uniform化
    • 利用监督数据,aligns对齐相同语句的embedding表达
      在这里插入图片描述
2.3 原理:对比学习原理
  • 拉近邻居,push非邻居
    在这里插入图片描述
2.4 目标函数:无监督学习目标函数
  • 正样本:相同句子,独立的dropout mask
  • 负样本:batch内,其他句子的embedding
    在这里插入图片描述
2.5 目标函数:监督学习目标函数
  • 正样本:NLI数据集 蕴含 样本
  • 负样本:batch内的负样本+矛盾样本,原来是两部分啊?相当于利用标注的负样本做了一个补充
    在这里插入图片描述
2.6 主要评估方法:语义相似度任务,而非下游文本分类任务

在这里插入图片描述

2.7 结果:无监督学习结果

在这里插入图片描述

2.8 结果:监督学习结果

在这里插入图片描述

2.9 原因分析:为啥能更好呢?构造无监督正样本对的方法不一样
  • SimCSE:dropout
  • 其他方法:
    • 下个句子增强
    • 同义词替换
    • crop
    • 删除
  • 优点总结:
    • 用他自己来做正样本>>下一个句子来做正样本
    • dropout增强>>其他数据增强
      在这里插入图片描述
      在这里插入图片描述
2.10 embedding表征特点分析:embedding各向异性分析
  • 预训练模型好的alignment,差的uniformity
  • 后处理可以改进uniformity
  • SimCSE:改进uniformity并且保持好的alignment性质
    在这里插入图片描述
    在这里插入图片描述
2.11 最终效果

在这里插入图片描述

2.12 总结
  • SimCSE:对比学习来做句子embedding
    • 无监督:标准dropout来做正样本对
    • 有监督:entailment做正样本,contradiction来做难样本
  • 原因:
    • 可以利用alignment和uniformity来分析不同的模型
    • 理论显示对比学习能改进embedding的uniformity​
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值