在最近邻Neighbor Nearest中使用cosine指标

先贴以下外国大神的分析
sklearn中Neighbor Nearest的使用方法

在sklearn中,Neighbor Nearest算法的metric只有距离的度量,而没有cosine相似度这种方式的度量,其实很好理解,因为Neighbor Nearest模型需要构建“ball tree”或者是"kd tree",所以metric只能够是这种能够形成空间关系的metric。

但是其实可以轻松地将cosine相似度转化为欧氏距离表示的方式。因为 c o s ( x , y ) = x T y / ( ∣ ∣ x ∣ ∣ ∗ ∣ ∣ y ∣ ∣ ) = ( x / ∣ ∣ x ∣ ∣ ) T ( y / ∣ ∣ y ∣ ∣ ) cos(x, y)=x^Ty/(||x||*||y||)=(x/||x||)^T(y/||y||) cos(x,y)=xTy/(xy)=(x/x)T(y/y),且x,y完全一样则越接近于1,x,y完全不同则接近于-1. 又有 E u c l i d e a n ( x , y ) = x T x + y T y − 2 x T y Euclidean(x,y)=\sqrt{x^Tx+y^Ty-2x^Ty} Euclidean(x,y)=xTx+yTy2xTy

那么只要我们 x , y x,y x,y都进行归一化变为 x n = x / ∣ ∣ x ∣ ∣ , y n = y / ∣ ∣ y ∣ ∣ x_n=x/||x||,y_n=y/||y|| xn=x/x,yn=y/y,使得 x T x = y T y = 1 x^Tx=y^Ty=1 xTx=yTy=1,则 E u c l i d e a n ( x n , y n ) = 2 − 2 x n T y n Euclidean(x_n,y_n)=\sqrt{2-2x_n^Ty_n} Euclidean(xn,yn)=22xnTyn ,当 x , y x,y x,y完全一样时, 2 − 2 x n T y n = 0 \sqrt{2-2x_n^Ty_n}=0 22xnTyn =0,完全相反时, 2 − 2 x n T y n = 2 \sqrt{2-2x_n^Ty_n}=2 22xnTyn =2

以下是代码实现:

import numpy as np
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import normalize

query_desc = normalize(query_desc, norm='l2')  # normalizing
refer_desc = normalize(refer_desc, norm='l2')
neigh = NearestNeighbors(n_neighbors=1, algorithm='ball_tree', metric='euclidean')  # build model
refer_tree = neigh.fit(refer_desc)  # train the model
distances, indices = refer_tree.kneighbors(query_desc)  # evaluate

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值