场景描述:
在机器学习问题中,通常将特征表示为向量的像是,所以在分析两个特征向量之间的相似性时,常用余弦相似度来表示。余弦相似度的取值范围是【-1,1】,相同的2个向量之间的相似度为1.如果希望得到类似于距离的表示,将1-减去余弦相似度即位余弦距离,余弦距离的取值范围【0,2】,2个相同的向量的余弦距离为0.
结合你的学习和研究经历,探讨一下为什么一些场景中使用余弦相似度而不是欧氏距离?
对于2个向量A和B,其余弦相似度即2个向量夹角的余弦。关注的是向量之间的角度关系,并不关心他们的绝对大小,其取值范围是【-1,1】。当一对文本相似度长度差异很大,但内容相近时,如果使用余弦相似度的话,他们之间的夹角可能很小,因而相似度高。此外,在文本,图像,视频等领域,研究的对象的特征维度往往很高,余弦相似度在高维情况下依然褒词相同时为1,正交时为0,相反时未-1的特性,而欧氏距离的数值则受维度的影响,范围不确定,并且含义也比较模糊。
在一些场景中,例如word2vec ,其向量模长是经过归一化,此时欧氏距离和余弦距离有着单调的关系。
在此场景下,如果选择距离最小(