python 两个word文档之间的相似度_如何用 word2vec 计算两个句子之间的相似度？

最新推荐文章于 2023-01-05 22:45:03 发布

weixin_39674190

最新推荐文章于 2023-01-05 22:45:03 发布

阅读量640

点赞数 1

文章标签： python 两个word文档之间的相似度

现在是2018年7月，在这里总结这个问题下已有的答案，并补充一些2017年以来这方面研究的新进展。

从大类上分，计算句子相似度的方法可以分为两类：

1）无监督的方法，即不使用额外的标注数据，常用的方法有：

（1）对句子中所有词的word vector求平均，获得sentence embedding

（2）以每个词的tf-idf为权重，对所有词的word vector加权平均，获得sentence embedding

（3）以smooth inverse frequency[1]（简称SIF)为权重，对所有词的word vector加权平均，最后从中减掉principal component，得到sentence embedding

（4）通过Word Mover’s Distance[2]（简称WMD），直接度量句子之间的相似度

2）有监督的方法，需要额外的标注数据，常见的有监督任务有：

（1）分类任务，例如训练一个CNN的文本分类器[3]，取最后一个hidden layer的输出作为sentence embedding，其实就是取分类器的前几层作为预训练的encoder

（2）sentence pair的等价性/等义性判定（[4][5]），这种方法的好处是不仅可以得到sentence embedding，还可以直接学习到距离度量函数里的参数

Yves Peirsman的这篇博客[6]里比较了常见方法在计算句子

最低0.47元/天解锁文章

weixin_39674190

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 两个word文档之间的相似度_如何用 word2vec 计算两个句子之间的相似度？

现在是2018年7月，在这里总结这个问题下已有的答案，并补充一些2017年以来这方面研究的新进展。从大类上分，计算句子相似度的方法可以分为两类：1）无监督的方法，即不使用额外的标注数据，常用的方法有：（1）对句子中所有词的word vector求平均，获得sentence embedding（2）以每个词的tf-idf为权重，对所有词的word vector加权平均，获得sentence embe...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。