On the Sentence Embeddings from Pre-trained Language Models paper阅读

最新推荐文章于 2023-06-24 23:39:19 发布

HxShine

最新推荐文章于 2023-06-24 23:39:19 发布

阅读量311

点赞数

分类专栏： nlp学习 nlp_paper nlp 文章标签：文本相似度 bert 语义匹配

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16949707/article/details/119566589

版权

nlp 同时被 3 个专栏收录

97 篇文章 3 订阅

订阅专栏

75 篇文章 7 订阅

订阅专栏

61 篇文章 2 订阅

订阅专栏

在这里插入图片描述

abstract

没有经过fine-tuning的embedding在语义计算上效果非常差
bert总是一个非平滑的各向异性的空间语义表达，对于以相似度的计算有害处
本文想办法将其转化成平滑的并且各项同性的高斯分布的表达，并且是通过无监督学习来做到的，效果得到了巨大的提升

1 introduction

为啥bert embedding表现差，是包含语义信息过少吗?
平均提升8.16个点，评价函数是Spearman correlation，用cosine来计算相似度
流式生成模型，通过无监督训练，使bert embedding生成标准的正态分布
bert embedding是否包含足够的语义信息，如果足够的话该如何利用

2 Understanding the Sentence Embedding Space of BERT

BERT的预处理没有明确涉及HTc HC’的计算。因此，我们很难推导出h⊤c HC’确切代表什么的数学公式。
共线统计，来作为予以相似度的计算，PMI可以用于计算，表示两个事件一起出现以及单独出现的概率的比值。
各向异性的空间表达，会导致比较差的语义相似度表现。
通过p(x|c)=exp(h_{c}^tw_x)/sum of exp(h_{c}^tw_x’)，极大似然估计来训练这个目标，会导致各向异性的word embedding表达，bert，GPT-2都会出现这样的情况。
观察1：
现象：词频越高，embedding越近，通过l2和点乘来计算都是这样
说明：embedding对频率有偏见bias
观察2：
现象：低频embedding空间比较稀疏
说明：低频不饱和，空间语义表达性差

3 Proposed Method: BERT-flow

1 motivation

标准高斯分布是各向同性的
如果来自标准高斯的样本的l2范数被归一化为1，则这些样本可以被视为均匀分布在单位球面上。
这样能降低词频bias带来的影响
高斯分布能填补低词频时embedding的稀疏空洞情况

2 Flow-based Generative Model

观察空间u：也就是bert的向量空间
z：标准的高斯分布，也就是基础的空间
总结：根据观察到的bert的向量空间，推导出原来高斯分布的向量空间的embedding
利用神经网络来模拟这个映射函数f，并且，网络结构要保证可逆性，并且容易求导

3 公式理解

空间表示
最大似然bert的分布来训练f参数，有了f参数，因为其可逆的，所以可以拿到先验分布下的参数

4 Experience

语义相似度数据集：STS，semantic textual similarity (STS) tasks.
通过这个工具We obtain all these datasets via the SentEval toolkit
实验过程和Sentence-BERT文章类似，对应STS任务
bert最后两层平均效果好一点，所以拿这个作为baseline
*：代表利用NLI做无监督训练
bert参数不变，flow模型利用训练+验证+测试数据学习flow模型参数，并且，这个时候没有用标注的label，是完全的无监督学习
BERT-NLI:没有标注数据，直接利用NLI训练flow模型参数。
BERT-NLI-flow：孪生网络的形式fintune bert模型，再学习flow参数
无监督和有监督实验都做了，bert-flow无监督是70.72，bert-nli-flow有监督是81.03，感觉有监督还是比较有用的呀！还有NLI也有用。
跟基于lexical的相似度相关性小，说明本文的方法能压制住词汇lexical相似性对嵌入空间的过度影响。

4.1 完全无监督，bert参数不变，训练flow模型参数实验结果

在这里插入图片描述

4.2 bert利用孪生网络的形式先训练，然后利用数据训练flow模型参数

在这里插入图片描述

4.3 实验总结

总体来看从bert cls的16提升到bert-nli-flow的81.8多，跨度还是比较大的，看你要如何利用bert embedding的特征
重新训练下bert也是必要的，可以从70多提升到80多，提升也非常大

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
On the Sentence Embeddings from Pre-trained Language Models paper阅读

abstract没有经过fine-tuning的embedding在语义计算上效果非常差bert总是一个非平滑的各向异性的空间语义表达，对于以相似度的计算有害处本文想办法将其转化成平滑的并且各项同性的高斯分布的表达，并且是通过无监督学习来做到的，效果得到了巨大的提升1 introduction为啥bert embedding表现差，是包含语义信息过少吗?平均提升8.16个点，评价函数是Spearman correlation，用cosine来计算相似度流式生成模型，通过无监督训练，使b.
复制链接

扫一扫

专栏目录

HxShine CSDN认证博客专家 CSDN认证企业博客

码龄10年

496: 原创

1万+: 周排名

1万+: 总排名

125万+: 访问

: 等级

1万+: 积分

1458: 粉丝

468: 获赞

163: 评论

1590: 收藏

私信

关注

热门文章

分类专栏

最新评论

SpanBERT学习
忆_恒心: 这个span 是怎么处理的呢
5 python numpy.expand_dims的用法
啥都不会的熊猫: 怎么还用python2呢？
ICLR 2023 | Self-Consistency: Google超简单方法改善大模型推理能力
eyulin9218: 感谢大神，读完后受益匪浅！有一个小问题请教：做完marginalize之后，是否还是需要调用一次大模型，让它对marginalize的结果进行总结输出？否则的话不就只能得到最终的一个答案，而没有任何推理过程了？
MRC Framework for Named Entity Recognition【代码解读】
GG BoY: 你好，想问下这篇文章的代码不是香农科技的那个代码吧（https://github.com/ShannonAI/mrc-for-flat-nested-ner）我下载的代码跟你完全不一样
几种分割loss
weixin_42052476: 如果有很多中文分析各种损失函数的好处就好了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。