在最近邻Neighbor Nearest中使用cosine指标

最新推荐文章于 2023-05-02 16:40:19 发布

Medlar Tea

最新推荐文章于 2023-05-02 16:40:19 发布

阅读量864

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_29567851/article/details/103885365

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

先贴以下外国大神的分析
sklearn中Neighbor Nearest的使用方法

在sklearn中，Neighbor Nearest算法的metric只有距离的度量，而没有cosine相似度这种方式的度量，其实很好理解，因为Neighbor Nearest模型需要构建“ball tree”或者是"kd tree"，所以metric只能够是这种能够形成空间关系的metric。

但是其实可以轻松地将cosine相似度转化为欧氏距离表示的方式。因为 $cos(x, y)=x^Ty/(||x||*||y||)=(x/||x||)^T(y/||y||)$ ，且x,y完全一样则越接近于1，x,y完全不同则接近于-1. 又有 $Euclidean(x,y)=\sqrt{x^Tx+y^Ty-2x^Ty}$ 。

那么只要我们将 $x, y$ 都进行归一化变为 $x_n=x/||x||,y_n=y/||y||$ ，使得 $x^Tx=y^Ty=1$ ，则 $Euclidean(x_n,y_n)=\sqrt{2-2x_n^Ty_n}$ ，当 $x, y$ 完全一样时， $\sqrt{2-2x_n^Ty_n}=0$ ，完全相反时， $\sqrt{2-2x_n^Ty_n}=2$

以下是代码实现：

import numpy as np
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import normalize

query_desc = normalize(query_desc, norm='l2')  # normalizing
refer_desc = normalize(refer_desc, norm='l2')
neigh = NearestNeighbors(n_neighbors=1, algorithm='ball_tree', metric='euclidean')  # build model
refer_tree = neigh.fit(refer_desc)  # train the model
distances, indices = refer_tree.kneighbors(query_desc)  # evaluate

Medlar Tea

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
在最近邻Neighbor Nearest中使用cosine指标

先贴以下外国大神的分析在sklearn中，Neighbor Nearest算法的metric只有距离的度量，而没有cosine相似度这种方式的度量，其实很好理解，因为Neighbor Nearest模型需要构建“ball tree”或者是"kd tree"，所以metric只能够是这种能够形成空间关系的metric。但是其实可以轻松地将cosine相似度转化为欧氏距离表示的方式。因为cos(x...
复制链接

扫一扫

专栏目录