Faiss 简介

渣渣崔

已于 2023-05-30 16:49:23 修改

阅读量935

点赞数

文章标签： faiss

于 2023-05-30 16:47:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39663060/article/details/130944826

版权

最近在做知识库问答的时候看到了Faiss，查询了一些资料了解其原理，下面做简单记录，方便以后查阅。

Faiss(Facebook AI Similarity Search)是Facebook AI团队开源的针对聚类和相似性搜索库，为稠密向量提供高效相似度搜索和聚类，支持十亿级别向量的搜索，是目前较成熟的近似近邻搜索库。（相似向量检索库-Faiss-简介及原理_金色麦田~的博客-CSDN博客）

Faiss整体流程图如下所示：

图片来自：相似向量检索库-Faiss-简介及原理_金色麦田~的博客-CSDN博客

图中，Faiss主要包含两个步骤：Faiss训练和Faiss查询。

1 Faiss训练

Faiss训练主要涉及两个算法：倒排索引（Inverted Index）和乘积量化（Product Quantization， PQ)。

倒排索引图片来源：相似向量检索库-Faiss-简介及原理_金色麦田~的博客-CSDN博客

倒排索引的原理比较简单，其主要通过使用聚类算法，将原始的数据聚为N类，即N个子空间。当来一个问句时，计算该问句和N个子空间的距离（问句向量与N个子空间的中心的距离），选择出距离最近的K个子空间，这K个子空间表示该问句可能答案可能存在的区域，然后再去这K个子空间查询答案。

乘积量化图片来源：[检索算法系列-1] 乘积量化 - 知乎

乘积量化分为两个步骤：聚类和量化。

（1）聚类的步骤如下：假设有N个文本或者图片，向量化为256维的向量。将该256维的向量分成4（自己设定）小段，然后就得到了4堆N*64的向量，对每一堆向量进行聚类操作，假设聚类个数为256个，可以将一堆中的N个向量聚类为256维。

（2）量化的步骤如下：将聚类后的每类计算其簇心（聚类中心，质心），使用这个簇心的ID当作向量量化的编码，由于每个向量都是由四小段向量组成的，所以每个向量可以被4个ID编码。这样，N个256维的向量可以被量化成4个ID，每个ID可以由一个字节保存，所以每个向量可以由4个字节进行编码。这样就得到了每个向量的索引index。

2 Faiss查询

Faiss查询图片来源：ANN之乘积量化PQ_田小成plus的博客-CSDN博客

Faiss查询流程（非对称距离计算步骤）：

（1）当来一个查询向量后，首先需要将其切分成4段；

（2）然后计算每段向量和该段的256个簇心之间的距离，这样就得到了一个256*4的矩阵和数组，称其为距离表；

（3）遍历样本库中的候选向量，根据距离表，计算候选向量和查询向量的距离和；

（4）根据（3）算出的距离和，返回topK个距离最近的样本；

（5）二次搜索，可以根据（4）返回的 topk 近似样本，再按照 query 和 topk对应的原始向量进行暴力匹配，提高 topk里排序的准确率。

参考文献：

1. 相似向量检索库-Faiss-简介及原理_金色麦田~的博客-CSDN博客

2. [检索算法系列-1] 乘积量化 - 知乎

3. ANN之乘积量化PQ_田小成plus的博客-CSDN博客

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Faiss 简介

最近在做知识库问答的时候看到了Faiss，查询了一些资料了解其原理，下面做简单记录，方便以后查阅。(Facebook AI Similarity Search)是Facebook AI团队开源的针对聚类和相似性搜索库，为稠密向量提供高效相似度搜索和聚类，支持十亿级别向量的搜索，是目前较成熟的近似近邻搜索库。Faiss整体流程图如下所示：图中，Faiss主要包含两个步骤：Faiss训练和Faiss查询。
复制链接

扫一扫

渣渣崔 CSDN认证博客专家 CSDN认证企业博客

码龄7年

25: 原创

105万+: 周排名

6万+: 总排名

5万+: 访问

: 等级

330: 积分

10: 粉丝

47: 获赞

17: 评论

251: 收藏

私信

关注

最新评论

大模型微调技术（Adapter-Tuning、Prefix-Tuning、Prompt-Tuning(P-Tuning)、P-Tuning v2、LoRA）
小白-52HZ: 作者大大，请问用peft的ptuning训练的adapter模型如何与预训练模型合并为一个模型呢？
大模型微调技术（Adapter-Tuning、Prefix-Tuning、Prompt-Tuning(P-Tuning)、P-Tuning v2、LoRA）
茉莉奇遇记: 我想知道prefix tuning的意思是在input sentence之前加入前缀即一个hard prompt吗？然后冻结其他的部分，对前缀进行调优吗？
大模型微调技术（Adapter-Tuning、Prefix-Tuning、Prompt-Tuning(P-Tuning)、P-Tuning v2、LoRA）
CSDN-Ada助手: 一定要坚持创作更多高质量博客哦, 小小红包, 以资鼓励, 更多创作活动请看: 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 上传ChatGPT/计算机论文等资源，瓜分￥5000元现金: https://blog.csdn.net/VIP_Assistant/article/details/130196121?utm_source=csdn_ai_ada_redpacket 新人首创任务挑战赛: https://marketing.csdn.net/p/90a06697f3eae83aabea1e150f5be8a5?utm_source=csdn_ai_ada_redpacket Microsoft Edge功能测评！: https://activity.csdn.net/creatActivity?id=10403?utm_source=csdn_ai_ada_redpacket 职场解惑讨论会: https://activity.csdn.net/creatActivity?id=10427?utm_source=csdn_ai_ada_redpacket 可持续能源技术真的能改变世界吗？: https://activity.csdn.net/creatActivity?id=10425?utm_source=csdn_ai_ada_redpacket 无效数据，你会怎么处理？: https://activity.csdn.net/creatActivity?id=10423?utm_source=csdn_ai_ada_redpacket 物联网技术正在如何影响我们的生活: https://activity.csdn.net/creatActivity?id=10421?utm_source=csdn_ai_ada_redpacket 生物识别技术能否成为应对安全挑战的绝佳选择？: https://activity.csdn.net/creatActivity?id=10411?utm_source=csdn_ai_ada_redpacket 应届生如何提高职场竞争力: https://activity.csdn.net/creatActivity?id=10409?utm_source=csdn_ai_ada_redpacket 讯飞星火大模型将超越chatgpt？: https://activity.csdn.net/creatActivity?id=10407?utm_source=csdn_ai_ada_redpacket 职场新人备忘录: https://activity.csdn.net/creatActivity?id=10405?utm_source=csdn_ai_ada_redpacket VR vs AR：哪种技术更有潜力改变未来？: https://activity.csdn.net/creatActivity?id=10399?utm_source=csdn_ai_ada_redpacket “裸奔”时代下该如何保护网络隐私: https://activity.csdn.net/creatActivity?id=10401?utm_source=csdn_ai_ada_redpacket 蓝桥杯备赛指南分享: https://activity.csdn.net/creatActivity?id=10317?utm_source=csdn_ai_ada_redpacket
服务器后台添加日志（python）
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。相比 loguru 有10胜。 pip install nb_log 。
tmux在linux下无root权限安装及基本使用指令
渣渣崔: 没有过期呀，还可以下载。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。