一、 概念与定义
余弦相似度,又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度
余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0,他们的方向更加一致。相应的相似度也越高
二、 主要应用
最常见的应用就是计算文本相似度。将两个文本根据他们词,建立俩个向量,计算这两个向量的余弦值,就可以知道两个文本在统计学方法中他们的相似度情况。实践证明,这是一个非常有效的方法
三、公式
e.g:
如果 n=2时,即是我们中学时学过的余弦定理公式了
假设向量a、b的坐标分别为(x1,y1)、(x2,y2)
则: cos�� = (x1*x1 + y1*y2) / ((√x1*x1 + y1*y1) * √x2*x2 + y2*y2 )
余弦相似度”是一种非常有用的算法,只要是计算两个向量的相似程度,都可以采用它。
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
http://baike.baidu.com/link?url=8nZChF50Y-T-VMmHy3ppHsq6KfRQvLLT7V7VBFgHUX1OG-WewNFybyT_IvFXti9N-JR5mYbGg0cMwqRv5iBszpTPpPNtgWEhaULadwatmXz2Vdv-_oCCYDcXBZexyciS