语义相似度和字面相似度的关系BERT-flow

主要内容是BERT-flow,基于流式生成模型,将BERT的表示可逆地映射到一个均匀的空间

论文题目:On the Sentence Embeddings from Pre-trained Language Models
下载地址:https://arxiv.org/pdf/2011.05864.pdf
论文代码:https://github.com/bohanli/BERT-flow

BERT表示句向量,作者统计分析

 

  1. BERT的词向量在空间中不是均匀分布,而是呈锥形。作者发现高频词都靠近原点(所有的均值),而低频词远离原点,相当于这两种词处于了空间中不同的区域,那高频词和低频词之间的相似度就不再适用了

  2. 低频词的分布很稀疏。正如我画的那样,低频词表示得到的训练不充分,分布稀疏,导致该区域存在语义定义不完整的地方(poorly defined),这样算出来的相似度也有问题。

在BERT的表示下,编辑距离小于4的句子语义相似度很高,但这显然是不对的,在文本中随便加一个「不」字都会让这两句话意思相反。而BERT-flow则可以改善这种情况

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ai君臣

学会的就要教给人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值