现实生活中,我们经常提到距离这个词,本文谈的相似度就是基于距离定义的,当两个向量之间的距离特别小时,就说这俩个向量相似度高,反之相似度不高。所以,衡量相似度的指标就是距离度量。
经常使用的相似度计算公式有:欧几里得相似度、余弦相似度、皮尔逊相似度、曼哈顿相似度。
(1)欧几里得相似度:
import numpy as np
def eculidDisSim(x,y):
'''
欧几里得相似度
'''
return np.sqrt(sum(pow(a-b,2) for a,b in zip(x,y)))
if __name__=='__main__':
a=np.array([1,2,3])
b=np.array([6,5,4])
sim=eculidDisSim(a,b)
(2)余弦相似