文本相似度的计算

最新推荐文章于 2023-06-25 18:25:02 发布

weixin_34049032

最新推荐文章于 2023-06-25 18:25:02 发布

阅读量138

点赞数

原文链接：https://segmentfault.com/a/1190000005074067

版权

文本相似度的计算方法有很多，这里简单记录一下

传统的VSM模型：

计算文本相似度的时候主要是使用tfidf来协助生成文档向量
整个文档集合有多少词，就是多少维度
每个文档中的词用tfidf来生成权重，用权重来表示文档的向量
生成向量后，就可以计算相似度了，用夹角余弦
当然这里词的权重的生成方式还有很多，也可以用其他的

LSI(Latent semantic indexing) 的方式

这个的方式也比较简单，主要是先生成文档 - 词矩阵
矩阵中的内容就是文档中出现该词的频数
然后用svd分解矩阵得到三个矩阵
C = USV
然后每个文档向量分别和USV相乘得到向量
文本相似度计算还是夹角余弦
至于降低维度，就要对S进行奇异值削减了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注