人机交互系统（1.1） ——Annoy算法（海量数据查找）

最新推荐文章于 2024-08-22 01:55:34 发布

置顶两只橙

最新推荐文章于 2024-08-22 01:55:34 发布

阅读量2k

点赞数 3

分类专栏：深度学习机器学习人机交互系统文章标签：算法深度学习

本文链接：https://blog.csdn.net/lzc4869/article/details/88079642

版权

机器学习同时被 3 个专栏收录

60 篇文章 3 订阅

订阅专栏

深度学习

52 篇文章 8 订阅

订阅专栏

人机交互系统

12 篇文章 4 订阅

订阅专栏

一、前言

一旦文档变成这种稠密向量形式，那如何从海量文本中快速查找出相似的Top N 文本呢?
这就不得不提到一个海量数据相似查找算法——Annoy算法。

二、算法原理

2D数据分布图

2.1 建立索引

Annoy的目标是建立一个数据结构，使得查询一个点的最近邻点的时间复杂度是次线性。Annoy 通过建立一个二叉树来使得每个点查找时间复杂度是O(log n)。看下面这个图，随机选择两个点，以这两个节点为初始中心节点，执行聚类数为2的kmeans过程，最终产生收敛后两个聚类中心点。这两个聚类中心点之间连一条线段（灰色短线），建立一条垂直于这条灰线，并且通过灰线中心点的线（黑色粗线）。这条黑色粗线把数据空间分成两部分。在多维空间的话，这条黑色粗线可以看成等距垂直超平面。
在这里插入图片描述

在划分的子空间内进行不停的递归迭代继续划分，直到每个子空间最多只剩下K个数据节点。

通过多次递归迭代划分的话，最终原始数据会形成类似下面这样一个二叉树结构。二叉树底层是叶子节点记录原始数据节点，其他中间节点记录的是分割超平面的信息。Annoy建立这样的二叉树结构是希望满足这样的一个假设: 相似的数据节点应该在二叉树上位置更接近，一个分割超平面不应该把相似的数据节点分割二叉树的不同分支上。

在这里插入图片描述

2.2 查询过程

上面已完成节点索引建立过程。如何进行对一个数据点进行查找相似节点集合呢？比如下。这个图的红色节点。查找的过程就是不断看他在分割超平面的哪一边。从二叉树索引结构来看，就是从根节点不停的往叶子节点遍历的过程。通过对二叉树每个中间节点（分割超平面相关信息）和查询数据节点进行相关计算来确定二叉树遍历过程是往这个中间节点左孩子节点走还是右孩子节点走。通过以上方式完成查询过程。

在这里插入图片描述

但存在两个问题：
（1）查询过程最终落到叶子节点的数据节点数小于我们需要的Top N相似邻居节点数目怎么办？
（2）两个相近的数据节点划分到二叉树不同分支上怎么办？

针对这个问题可以通过两个方法来解决：
（1）如果分割超平面的两边都很相似，那可以两边都遍历；下面是是个示意图：
在这里插入图片描述
（2）建立多棵二叉树树，构成一个森林，每个树建立机制都如上面所述那样。多棵树示意图如下所示：

（3）采用优先队列机制：采用一个优先队列来遍历二叉树，从根节点往下的路径，根据查询节点与当前分割超平面距离（margin）进行排序。