向量检索方法综述

茉莉_Molly

已于 2024-03-19 14:05:37 修改

阅读量944

点赞数 26

文章标签： nlp python

于 2024-03-19 13:44:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/posuosini/article/details/136840134

版权

向量检索库

Annoy

介绍：Annoy是高维空间求近似最近邻的一个开源库。全称：Approximate Nearest Neighbors Oh Yeah，是一种适合实际应用的快速相似查找算法。

Annoy构建一个二叉树，查询时间为O（logn）。

github:GitHub - spotify/annoy: Approximate Nearest Neighbors in C++/Python optimized for memory usage and loading/saving to disk

Faiss

介绍：Faiss库是由 Facebook 开发的适用于稠密向量匹配的开源库，支持 c++ 与 python 调用。Faiss提供了高效的索引类库。是向量化检索开山鼻祖的应用。

Faiss 支持多种向量检索方式，包括内积、欧氏距离等，同时支持精确检索与模糊搜索。

github:GitHub - facebookresearch/faiss: A library for efficient similarity search and clustering of dense vectors.

ElasticSearch

介绍：Elasticsearch 是⼀个分布式可扩展的实时搜索和分析引擎，⼀个建⽴在全⽂搜索引擎 Apache Lucene(TM)基础上的搜索引擎，当然 Elasticsearch 并不仅仅是 Lucene 那么简单，它不仅包括了全⽂搜索功能，还可以进行以下⼯作：

分布式实时⽂件存储，并将每⼀个字段都编入索引，使其可以被搜索。
实时分析的分布式搜索引擎。
可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。
ES本质上是一个支持全文搜索的分布式内存数据库，特别适用于构建搜索系统，比如内容检索、文本检索、日志检索。其原因是采用了倒排索引。
- 倒排索引是一种特别为搜索而设计的索引结构。
- 先对需要索引的字段进行分词，然后以分词为索引组成一个查找树，这样就把一个全文匹配的查找转换成了对树的查找。
- 倒排索引相比于一般数据库采用B树索引，其写入和更新的性能比较差，因此倒排索引只适合全文搜索，不适合更新频繁的交易类数据。

github:https://github.com/elastic/elasticsearch

BGE

向量模型BGE与M3E

北京智源人工智能研究院发布了其开源的中英文语义向量（embedding）模型BGE，此模型在多个重要指标上均超越了其他同类模型。

论文：https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2309.07597.pdf

github：https://github.com/FlagOpen/FlagEmbedding/blob/master/README_zh.md

评估指标

Hit Rate

即命中率，一般指的是预期的召回文本（真实值）在召回结果的前 k 个文本中出现。一般，Hit Rate越高，就说明召回算法效果越好。衡量返回结果的准确率。

Mean Reciprocal Rank

即平均倒数排名，是一种常见的评估检索效果的指标。MRR 是衡量系统在一系列查询中返回相关文档或信息的平均排名的逆数的平均值。例如，如果一个系统对第一个查询的正确答案排在第二位，对第二个查询的正确答案排在第一位，则 MRR 为 (1/2 + 1/1) / 2。衡量返回结果的排名质量。

RANK代表第i个查询文本命中的排序，Q为查询的集合

关注

26
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

茉莉_Molly CSDN认证博客专家 CSDN认证企业博客

码龄6年

15: 原创

119万+: 周排名

16万+: 总排名

2万+: 访问

: 等级

397: 积分

131: 粉丝

204: 获赞

2: 评论

203: 收藏

私信

关注

热门文章

分类专栏

最新评论

回溯算法leetcode题讲解
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
量化行业的info
CSDN-Ada助手: 非常感谢您分享有关量化行业的信息，这篇博客非常有价值！我们非常期待您在未来的博客中继续探索这一领域。作为一位CSDN博主，您可以考虑撰写一篇关于量化交易策略的技术博文，探讨如何利用数据分析和机器学习算法来构建成功的交易策略。祝您写作愉快！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

茉莉_Molly 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。