K-D 树, 高维空间索引

最新推荐文章于 2021-09-03 14:02:18 发布

yichudu

最新推荐文章于 2021-09-03 14:02:18 发布

阅读量1.2k

点赞数 1

分类专栏： # 树文章标签：索引二叉树搜索

天天开心

本文链接：https://blog.csdn.net/chuchus/article/details/78120924

版权

树专栏收录该内容

21 篇文章 0 订阅

订阅专栏

简介

K-D Tree, K-Dimensional Tree, 对高维的点作空间划分的一种二叉树.

传统的文本搜索是这样的:
一个doc 有若干个field, 分词后添加到倒排索引中, 然后按照 tf-idf 等思想计算match(query,doc), 然后取得分最高的top-k.

那么对于高维的点或向量 $v=(x_1, ... , x_d)$ , 即给出一个集合 $S=\{v |v \in \mathbb R^d\}$ , 怎么做指定点 $v$ 在集合 $S$ 中的 k-近邻搜索呢?
最朴素的思想, 就是暴力遍历, 作 $O(n)$ 时间复杂度的操作.
但问题变复杂时, 如:

集合非常大, 百万级
维度d很大, 两三百维
数据类型为float, 计算两元素间距离 distance(a,b) 的代价较大

此时, 为了提升搜索效率, 就需要建索引, 就用到了K-D Tree.

1. 建树

像回归决策树一样, 不断地找划分点, 递归地得到树.
这里的划分点就是(split_dimension,split_value ).
便于说明, 用ndarray类型的变量A表示数据集, A.shape=(n,m)
流程见下:

对当前集合S,求出方差最大的那一维 $s p l i t_d i m e n s i o n = arg max d v a r i a n c e (A [:, d])$ $split\_dimension = \arg \max_d variance(A[: , d])$
在上步找到维度d之后, 求出该维度分量的中位数:
$s p l i t_v a l u e = m e d i a n (A [:, d])$ $split\_value=median(A[:,d])$
确定(split_dimension,split_value )之后, 对集合作划分, 得到子集 $S_1,S_2$ , 分别做左右子树. 再递归地重复上述步骤, 直至对整个数据集划分完毕.

2. 搜索

代码

疑问

以欧氏距离做度量, 搜索K-近邻很直观, 那余弦距离呢?

参考

yichudu

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
K-D 树, 高维空间索引

简介K-D Tree, K-Dimensional Tree, 对高维的点作空间划分的一种二叉树.传统的文本搜索是这样的: 一个doc 有若干个field, 分词后添加到倒排索引中, 然后按照 tf-idf 等思想计算match(query,doc), 然后取得分最高的top-k.那么对于高维的点或向量 v=(x1,...,xd)v=(x_1, ... , x_d), 即给出一个集合 S={v|
复制链接

扫一扫