先贴以下外国大神的分析
sklearn中Neighbor Nearest的使用方法
在sklearn中,Neighbor Nearest算法的metric只有距离的度量,而没有cosine相似度这种方式的度量,其实很好理解,因为Neighbor Nearest模型需要构建“ball tree”或者是"kd tree",所以metric只能够是这种能够形成空间关系的metric。
但是其实可以轻松地将cosine相似度转化为欧氏距离表示的方式。因为 c o s ( x , y ) = x T y / ( ∣ ∣ x ∣ ∣ ∗ ∣ ∣ y ∣ ∣ ) = ( x / ∣ ∣ x ∣ ∣ ) T ( y / ∣ ∣ y ∣ ∣ ) cos(x, y)=x^Ty/(||x||*||y||)=(x/||x||)^T(y/||y||) cos(x,y)=xTy/(∣∣x∣∣∗∣∣y∣∣)=(x/∣∣x∣∣)T(y/∣∣y∣∣),且x,y完全一样则越接近于1,x,y完全不同则接近于-1. 又有 E u c l i d e a n ( x , y ) = x T x + y T y − 2 x T y Euclidean(x,y)=\sqrt{x^Tx+y^Ty-2x^Ty} Euclidean(x,y)=xTx+yTy−2xTy。
那么只要我们将 x , y x,y x,y都进行归一化变为 x n = x / ∣ ∣ x ∣ ∣ , y n = y / ∣ ∣ y ∣ ∣ x_n=x/||x||,y_n=y/||y|| xn=x/∣∣x∣∣,yn=y/∣∣y∣∣,使得 x T x = y T y = 1 x^Tx=y^Ty=1 xTx=yTy=1,则 E u c l i d e a n ( x n , y n ) = 2 − 2 x n T y n Euclidean(x_n,y_n)=\sqrt{2-2x_n^Ty_n} Euclidean(xn,yn)=2−2xnTyn,当 x , y x,y x,y完全一样时, 2 − 2 x n T y n = 0 \sqrt{2-2x_n^Ty_n}=0 2−2xnTyn=0,完全相反时, 2 − 2 x n T y n = 2 \sqrt{2-2x_n^Ty_n}=2 2−2xnTyn=2
以下是代码实现:
import numpy as np
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import normalize
query_desc = normalize(query_desc, norm='l2') # normalizing
refer_desc = normalize(refer_desc, norm='l2')
neigh = NearestNeighbors(n_neighbors=1, algorithm='ball_tree', metric='euclidean') # build model
refer_tree = neigh.fit(refer_desc) # train the model
distances, indices = refer_tree.kneighbors(query_desc) # evaluate