Wrod2vec计算句子相似度_3分钟热情学NLP第6篇

12 篇文章 0 订阅
11 篇文章 0 订阅

3分钟热情学NLP第6篇,Wrod2vec计算句子相似度

参考文章:
1、https://blog.csdn.net/joleoy/article/details/99741139
2、https://www.zhihu.com/question/29978268

1、无监督,句子相似度的计算方法

无监督,即不需要额外的标注数据。
通过词向量计算句子之间的相似度,大致有下面几种方法:

1.1、求平均值

比如一句话包含ABC共3个词汇,那么这句话的句向量值即为ABC的向量求和,再除以3;

1.2、用TF-IDF值进行加权平均

比如一句话包含ABC共3个词汇,结合A、B、C的TF-IDF值,进行加权平均,(A1.1+B0.5+C*2)除以3

1.3,SIF加权平均

平滑逆词频 (smooth inverse frequency, SIF),
第1步:加权。类似于ID-IDF。SIF取句中词嵌入的平均权重,每个词嵌入都进行加权;
第2步:去掉常见元素。

摘自https://blog.csdn.net/ganxiwu9686/article/details/107209111
SIF计算了句子的嵌入中最重要的元素。然后它减去这些句子嵌入中的主要成分。这就可以删除与频率和句法有关的变量,他们和语义的联系不大。

1.4,词移距离Word Mover's Distance

https://zhuanlan.zhihu.com/p/76004198

WMD基于word2vec基础上通过计算文本间词的距离来衡量文本相似度的算法。
把文本以BOW的方式录入,使用word2vec的词向量矩阵,获得录入文本的每个词的词向量。
在衡量两个文本的相似度的时候,计算两个文本的词向量的距离。

2、有监督,句子相似度的计算方法

建立分类任务,训练1个CNN的文本分类器,取最后1个隐藏层订的输出作为词向量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

13线

谢谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值