在本文中,您将了解什么是余弦相似度以及如何使用 Python 计算它。
什么是余弦相似度?
余弦相似度是一种度量,用于衡量两个实体的相似程度,无论它们的大小如何。它测量投影在多维空间中的两个向量之间夹角的余弦值。
在这种情况下,我所说的两个向量是数字数组(就像 Python 中的列表),它们之间的角度是衡量它们相似程度的指标。矢量越近,角度越小,导致余弦接近 1,反之亦然。该指标是方向(不是幅度)的度量。
现在,如果箭头成 90 度角,则意味着数据集不相关,余弦相似度为 0。因此,简而言之,余弦相似度是衡量两组数据相关程度的一种方式。相似度的范围从 -1 到 1,其中:
1 表示向量相同
0 表示向量不相关(不相似)
-1 表示向量完全相反(完全不同)
在上图中,您可以直观地看到余弦相似度及其对两个不同向量的分类。
如果您想了解有关矢量的更多信息,我有一篇文章对其进行了更详细的解释: