图谱问答-句子向量&模型部署&项目总结(未完)

内容来自七月算法nlp课程。

1 句子向量

句子向量是用于实体消岐的。可以使用Elmo,也可以使用bert。这里介绍用bert生成句子向量。

1.1 bert句子向量表示相似度效果不好

Bert中最常用的句向量方式是采用cls标记位或者平均所有位置的输出值,注意,在采用平均的方式的时候,我们需要先做一个mask的操作,计算均值时,除以mask的和。但bert的句子向量效果不理想。

为什么呢?
原因1:词频率影响词向量的空间分布。bert词向量表示与原点的L2距离的均值。高频的词更接近原点。

原因2:低频次分布偏向稀疏。度量词向量空间中与K近邻单词的 L2 距离的均值。我们可以看到高频词分布更集中,而低频词分布则偏向稀疏。然而稀疏性的分布会导致表示空间中存在很多“洞”,这些洞会破坏向量空间的“凸性”。考虑到BERT句子向量的产生保留了凸性,因而直接使用其句子embeddings会存在问题。
这个凸性听得云里雾里。
在这里插入图片描述

解决的模型有:sentence-bert、bert-flow和simCSE。

1.2 sentence-bert

论文:https://arxiv.org/pdf/1908.10084.pdf
代码:https://github.com/UKPLab/sentence-transformers

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值