文本相似度的计算

文本相似度的计算方法有很多,这里简单记录一下

传统的VSM模型:

计算文本相似度的时候主要是使用tfidf来协助生成文档向量
整个文档集合有多少词,就是多少维度
每个文档中的词用tfidf来生成权重,用权重来表示文档的向量
生成向量后,就可以计算相似度了,用夹角余弦
当然这里词的权重的生成方式还有很多,也可以用其他的

LSI(Latent semantic indexing) 的方式

这个的方式也比较简单,主要是先生成文档 - 词矩阵
矩阵中的内容就是文档中出现该词的频数
然后用svd分解矩阵得到三个矩阵
C = USV
然后每个文档向量分别和USV相乘得到向量
文本相似度计算还是夹角余弦
至于降低维度,就要对S进行奇异值削减了
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值