基于语义的泛化系统——annoy近邻搜索实现

最新推荐文章于 2022-08-05 17:51:30 发布

昭刈

最新推荐文章于 2022-08-05 17:51:30 发布

阅读量236

点赞数

分类专栏：项目实训

本文链接：https://blog.csdn.net/anzhaoyi/article/details/118521733

版权

利用annoy算法，实现了对200万数据的快速近邻搜索，build过程耗时几分钟，单次搜索耗时1秒。此技术已应用于基于腾讯800万词向量的关键词泛化系统。

摘要由CSDN通过智能技术生成

数据预处理和二叉树构建

build.py

# 基于annoy二叉树的近邻搜索版本 构建

import json
import numpy as np
from collections import OrderedDict
from annoy import AnnoyIndex


def build(word_path='../../res/res/word1.txt', vec_path='../../res/res/vector1.npy', build_trees=1, annoy_deep=200):
    keywords = getKeyword(word_path)
    vectors = getVectors(vec_path)
    word_index = OrderedDict()
    # 关键词->索引 表
    for count, word in enumerate(keywords)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

昭刈

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于语义的泛化系统——annoy近邻搜索实现

数据预处理和二叉树构建build.py# 基于annoy二叉树的近邻搜索版本构建import jsonimport numpy as npfrom collections import OrderedDictfrom annoy import AnnoyIndexdef build(word_path='../../res/res/word1.txt', vec_path='../../res/res/vector1.npy', build_trees=1, annoy_deep=20
复制链接

扫一扫