向量空间模型（VSM）一种文本相似度算法

最新推荐文章于 2024-03-31 22:30:42 发布

井底之蛙-hzq

最新推荐文章于 2024-03-31 22:30:42 发布

阅读量1.1k

点赞数

分类专栏： NLP

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

转自：http://blog.sina.com.cn/s/blog_a1304cff0101aj29.html

由于工作需要，我需要判断一篇文章是否是你喜欢的文章。

这涉及到文本分析，有一个简单的方法可供参考。向量空间模型（VSM）算法。

在该方法中，我们把一篇文章抽象成一个向量。

假设向量由n个词组成，每个词的权重是kn。假设文章D是你喜欢的文章，那么

文章 D=(k1,k2,k3,k4,k5.....kn),这是一个多维的向量。

如果维数很多，将来计算起来很麻烦，我们需要降维处理，所谓的降维就是，选出有代表性的特征词，这样就降低了维数。可以人工选择。也可以自动选择，自动选择的话，可以采用开方拟和检验方法，如果有时间，我会在以后详细介绍该方法。

选择特征词后，就需要计算它的权重了，可以采用词频来计算，Term frequency TF = N/M M为文章的词数，N为该特征词出现的词数。当然了，如果你选择的特征词是 “的” 这个很一般的词，我们还需要为其修正。计算Inverse documentfrequency 逆向文本频率，是用于衡量关键词权重的指数 IDF = log(D/Dw) (手画的公式，请多包涵。) 其中D为总文章数，Dw为关键词出现过的文章数。

这样一来，就需要一群你喜欢的文章，才可以计算IDF。

计算结束后，我们得出你喜欢的文章D = (w1,w2,w3....wm); 共有m个关键词，权重依次为w1,w2...wm。

好，下面，重点来了，给出一篇文章E，判断它和你喜欢的D 的相似度是多少，如果相似度很高的话，则可以认为E也是你喜欢的文章。

采用上面的方法，计算出E = (q1,q2,q3...qm);

我们来通过两个多维向量的夹角的余弦值来表征 2个文章的相似度。为啥？两个向量的夹角越小，它们越靠近，我们就认为2个文章越相似呗。夹角越小，越相似，余弦值越高。

2个多维向量的夹角余弦计算公式：cosθ = （公式还是手画的。呵呵。)