在上一篇文章中马海祥已经详细的介绍了利用TF-IDF算法自动提取文章关键词的原理。接下来,我们再来研究一下另一个相关的问题。这个问题也是我们做SEO的最关心的,有些时候,我们除了要明白如何找到并提取文章关键词,我们还需要找到与原文章相似的其他文章。比如,我们平时在搜索引擎的新闻栏目下搜索某条新闻的时候,在主新闻下方,还提供了多条相似的新闻。如下图所示:
为了找出相似的文章,我们就需要用到另外一个公式原理了,那就是“余弦相似性(cosine similiarity)”。
一、什么是"余弦相似性"?
余弦相似性是指通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。在比较过程中&#