全文检索
jollyjumper
一点记录
展开
-
(转)一文看懂HNSW算法理论的来龙去脉
原文链接:https://blog.csdn.net/u011233351/article/details/85116719一.背景介绍 在浩渺的数据长河中做高效率相似性查找一直以来都是让人头疼的问题。比如,我在搜狗app上阅读了一篇文章,推荐系统就应当为我推送与这篇文章最相近的文章,数据库中所有文章是用向量表示的,所以我们要解决的问题就是“找到与这篇文章的向量最相近的几个向量”,然后把这些向量对应的文章推送出去。数据库中的文章千千万,所有用户每秒的请求也是千千万,我们需要又快又准又...转载 2020-09-06 17:24:10 · 599 阅读 · 1 评论 -
Fedora12 安装Sphinx 2.0.1 beta
从sphinxsearch.com下载sphinx2.0.1 beta之后解压就可以开始安装了。必须先装mysql和php(http://blog.csdn.net/jollyjumper/archive/2011/05/05/6395440.aspx)./configure #最好加--prefix=/usr/local/sphinx,这样目录更清晰make;make installcd /usr/local/etccp spinx.conf.dist sphinx.confmysql -u test m原创 2011-05-05 00:57:00 · 991 阅读 · 0 评论 -
Lucene Index Format 笔记
原文在这里:http://hackerlabs.org/blog/2011/10/01/hacking-lucene-the-index-format/这篇文章很不错,把lucene index格式都列出来了.几个文件如下:fnm => Field Informationfdx => Field index Field数据索引fdt => Field Data Field数据t原创 2014-02-18 22:18:52 · 1585 阅读 · 0 评论 -
Twitter实时搜索系统EarlyBird
twitter对存档的tweet使用lucene做全量索引,新发的推文则是实时索引,实时检索(10秒之内索引)。实时索引和检索系统叫EarlyBird。感觉写得比较清楚简洁,只要这些信息足够真实可信,完全可以做实现参考。我简单做了几个记录: 1)基于lucene + java,michael busch是lucene committer2)词典直接用哈希表,因此不支持term的pr原创 2014-06-07 19:05:25 · 2002 阅读 · 0 评论 -
Lucene 6.6.0 BKD树
相关接口使用可以看TestBKD.java。仔细读BKDReader,BKD树是一颗完全二叉树,每个节点在一个维度上进行划分.发现里面为了节约空间做了很多差量编码工作.其中的PackedIndexTree结构是这样的:要知道这个结构是为了遍历树的,因此有pushLeft,pushRight,pop等操作,这里splitValuesStack可以看到冗余存了numDims维数据,但实...原创 2019-02-18 23:48:01 · 2070 阅读 · 0 评论