欧氏距离
欧氏距离最初用于计算欧几里得空间中两个点的距离,假设x,y是n维空间的两个点,他们之间的欧式距离:
上式是最常用的二维空间内的欧氏距离的计算公式,他是一种平面距离,距离越小,相似度越大。
余弦距离
余弦距离的原理就是多维空间两点与所设定的点形成的夹角的余弦值,距离范围在-1到1之间,值越大说明夹角越大,两点距离越远,相似度越小。
余弦距离与欧氏距离
余弦相似度衡量的是维度间取值方向的一致性,注重维度之间的差异,不注重数值上的差异,而欧式度量的是数值上的差异。他们的使用场景借用网上的一个例子:
一件短袖从100降到50,一条裙子从1000降到500,两者的变动趋势一致,使用余弦距离计算趋势的相似度,二者价格相差甚远,利用欧氏距离计算价格的相似度。得到的结果就是,变化趋势相似性大,价格本身的数值相似性小。
汉明距离
汉明距离,通过比较向量每一位是否相同,求出不同位的个数。用来表示两个向量之间的相似度。