
检索
文章平均质量分 76
zhurui_xiaozhuzaizai
想要浓密的秀发
展开
-
向量相似检索优化(乘积量化(PQ,)
倒排索引(Inverted File System,IVF)乘积量化(PQ, Product Quantization)原创 2023-10-12 11:21:39 · 260 阅读 · 0 评论 -
倒排索引技术
1 正向索引与倒排索引正向索引“文档”的ID > 单词1:出现次数,出现位置列表;单词2:出现次数,出现位置列表;…………。倒排索引“关键词1”:“文档1”的ID,“文档2”的ID,…………。参考博客:https://www.cnblogs.com/zlslch/p/6440114.html...转载 2020-05-21 22:19:35 · 160 阅读 · 0 评论 -
阿里云图谱相关问题
1 原生引擎 neo4j-python 引擎官方反馈是自动事务提交。踩坑少阿里问题:py2neo 偶尔异常问题(int 和none 不可比)—> 换原生引擎原生引擎,偶尔异常问题(自动事务会好一些)—> 换自动事务自动事务,慢的问题—> 加上生命周期(未解决)import time### 官方示例import neo4jfrom neo4j import GraphDatabaseclass HelloWorldExample(object): def __i原创 2021-11-10 19:09:37 · 577 阅读 · 0 评论 -
信息检索中的度量precison@k,recall@k,f1@k,MRR,ap,map,CG, DCG,NDCG
信息检索中度量指标全解析导读由浅入深逐个解析信息检索中的度量指标。我们如何评估前n个结果有多好?问题1:二元相关性让我们通过一个简单的玩具例子来理解各种评估指标的细节和权衡。我们有一个排序模型,它会为一个特定的查询返回5个最相关的结果。根据我们的ground-truth,第一个、第三个和第五个结果是相关的。A. 排序不感知的度量1. Precision@k这个指标量化了排名前k的结果中有多少项是相关的。在数学上,由下式给出:对于我们的例子,precision@1 = 1,因为转载 2021-06-07 18:44:59 · 6680 阅读 · 0 评论 -
elastic search
elastic 权威指南一 基本概念先说Elasticsearch的文件存储,Elasticsearch是面向文档型数据库,一条数据在这里就是一个文档,用JSON作为文档序列化的格式,比如下面这条用户数据:{“name” : “John”,“sex” : “Male”,“age” : 25,“birthDate”: “1990/05/01”,“about” : “I love to go rock climbing”,“interests”: [ “spo原创 2021-10-09 17:39:39 · 1821 阅读 · 0 评论 -
lucence索引技术
正排索引、倒排索引正排索引:文档ID为Key,表中记录了,关键词出现的次数,出现的位置。优点:易维护。缺点:搜索的耗时太长。倒排索引:关键词为Key,表中记录了,文档的ID,出现的频率,出现的位置。优点:搜索耗时短。缺点:不易维护。常见词典的实现和优缺点数据结构 优缺点跳跃表-----------------占用内存小,且可调,但是对模糊查询支持不好排序列表Array/List—使用二分法查找,不平衡字典树-------------------查询效率跟字符串长度有关,但只适合英文词.原创 2021-10-09 17:39:23 · 1319 阅读 · 0 评论 -
cypher 查询语句
1、 什么是CypherCypher是一种声明式图查询语言,表达高效查询和更新图数据库。Cypher是相对简单的查询语法,它让我们更关注业务领域问题。Cypher语言的关键字不区分大小写,但是属性值,标签,关系类型和变量是区分大小写的。Neo4j中不存在表的概念,只有标签(labels),节点(Node),关联(Relation),路径(path),标签里存的节点,节点和关系可以简单理解为图里面的点和边,路径是用节点和关系表示的如:(a)-[r]->(b),表示一条从节点a经关系r到节点b的路径原创 2021-09-09 20:21:18 · 7041 阅读 · 0 评论 -
知识图谱-
1. 图数据库数据库分类: 传统的关系数据库和NoSQL数据库传统的关系数据库:mySQL、oracleNoSQL数据库分为Graph,Document,Column Family以及Key-Value Store等四种,分别对应titan、ES、hbase、redis。图数据库相对于传统关系型数据库的优点(1)传统关系型数据库为每一类实体建表,但没有对关系进行表示的机制。因此在更多实体引入之后,我们将需要越来越多的关联表,从而使得基于关系型数据库的解决方案繁琐易错。(2)图数据库由于其独特原创 2021-09-09 18:27:08 · 193 阅读 · 0 评论 -
p-stable LSH
p-stable LSH与LSH的区别LSH是用局部敏感的方法解决近似最近邻搜索的问题。在原始的LSH方法中,通过将原始空间嵌入到Hamming空间中,将d维空间转换成d'=Cd维的Hamming空间p-stable LSH算法中,不需要将原始空间嵌入到Hamming空间中,可以直接在欧几里得空间下进行局部敏感哈希运算。p-Stable分布定义:对于一个实数集R上的分布D,如果存在P>=0,对任何n个实数v1,…,vn和n个满足D分布的变量X1,…,Xn,随机变量ΣiviXi和(Σi|v原创 2021-09-06 19:25:43 · 726 阅读 · 0 评论 -
Ball Tree
KD 树对于低维度 (D<20) 的近邻搜索非常快, 当 D 增长到很大时, 效率变低;这就是所谓的 “维度灾难” 的一种体现;KD 树只能处理欧式距离;为了解决 KD 树在高维上效率低下的问题, ball 树 应运而生,同时 Ball tree 可处理一般的距离;构建空间中散落着很多个点.把整个空间当作一个大簇.找到距离最远的两个点 a 和 b , 叫做 观测点(请记住, 最后面要考) , 以它们为种子.其余的簇内点 s 分别计算与 a 和 b 的距离, 离 a 近就归到 a 的子.原创 2021-09-06 18:07:17 · 948 阅读 · 0 评论 -
KD TREE
kd-tree(k-dimensional tree),一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。 主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。BST是KD Tree在一维数据上的特例KD Tree就是不停变换特征来建立BST。构建流程建立根节点;选取方差最大的特征作为分割特征;选择该特征的中位数作为分割点;将数据集中该特征小于中位数的传递给根节点的左儿子,大于中位数的传递给根节点的右儿子;递归执行步骤2-4,直到所有数据都被建立到KD.原创 2021-09-06 17:45:20 · 394 阅读 · 0 评论 -
LSH局部敏感哈希
简介局部敏感哈希(Locality Sensitive Hashing,LSH)主要是为了处理高维度数据的查询和匹配等操作。相似度的计算有多种方式:欧氏距离、余弦相似度或者Jaccard相似度,不管以何种计算方式,在数据维度较小时,都可以用naive的方式直接遍历每一个pair去计算。但当数据维度增大到一定程度时,计算复杂度就开始飙升了【文本相似性计算】minHash和LSH算法大规模数据的相似度计算:LSH算法Jaccard相似度判断两个集合是否相等,一般使用称之为Jaccard相似原创 2021-09-06 12:03:45 · 2976 阅读 · 0 评论 -
HNSW算法
HNSW算法----Hierarchcal Navigable Small World graphs第一贡献者:Y.Malkov(俄)一.背景介绍NN最近邻搜索广泛应用在各类搜索、分类任务中,在超大的数据集上因为效率原因转化为ANN,常见的算法有KD树、LSH、IVFPQ和本文提到的HNSW。HNSW(Hierarchical Navigable Small World)是ANN搜索领域基于图的算法,我们要做的是把D维空间中所有的向量构建成一张相互联通的图,并基于这张图搜索某个顶点的K个最近邻原创 2021-09-03 17:23:17 · 2977 阅读 · 0 评论 -
ANNOY索引算法
Annoy向量检索算法官方包:https://github.com/spotify/annoy(gensim自带AnnoyIndexer)https://medium.com/@kevin_yang/python 接口pip install --user annoyAnnoyIndex(f, metric) #返回一个只读索引,存储f维向量. Metric可以是 "angular", "euclidean", "manhattan", "hamming", or "dot".a.add原创 2021-09-03 16:35:11 · 1407 阅读 · 0 评论 -
一些常见的索引方法调研
KDTreekd 树是一种对k维特征空间中的实例点进行存储以便对其快速检索的树形数据结构。kd树是二叉树,核心思想是对 k 维特征空间不断切分(假设特征维度是768,对于(0,1,2,…,767)中的每一个维度,以中值递归切分)构造的树,每一个节点是一个超矩形,小于结点的样本划分到左子树,大于结点的样本划分到右子树。树构造完毕后,最终检索时(1)从根结点出发,递归地向下访问kd树。若目标点 [公式] 当前维的坐标小于切分点的坐标,移动到左子树,否则移动到右子树,直至到达叶结点;(2)以此叶结原创 2021-09-03 14:02:18 · 870 阅读 · 0 评论