统计学习-余弦距离简介
介绍余弦距离
在衡量变量之间距离的时候,我们发现可以用欧式距离、绝对值距离,本文我们将来介绍另一种距离,即余弦距离。余弦距离在实际问题中经常用到,由于它的计算方法是把各个维度的点积相乘并相加,然后除以模长得到余弦相似度,再用1减去余弦相似度得到余弦距离,该方法和欧式距离等直接计算距离差的计算方法不同,可以较好地消除变量本身的数值大小带来的距离计算问题。
余弦相似度的公式如下:
余弦距离=1-余弦相似度
根据上述的表达式,我们可以看到,余弦相似度就是把两个向量进行点积然后相加后去除以各自的模长,余弦相似度的实际含义如下图。
通过上图我们可以看出,余弦相似度是介于-1和1之间的值,如果上图的a向量和b向量的夹角是0度,那么余弦相似度是1,而余弦距离是0,即两者非常相似,没有差异。如果上图的a向量和b向量的夹角是90度,那么余弦相似度是0,余弦距离是1,即两者完全不相似,有很大的差异。
那么余弦距离和之前提到的欧式距离有哪些关系呢,下面我们来进行公式推导,首先是欧式距离的定义如下: