unsetunsetFaiss介绍unsetunset
faiss是一个Facebook AI团队开源的库,全称为Facebook AI Similarity Search,该开源库针对高维空间中的海量数据(稠密向量),提供了高效且可靠的相似性聚类和检索方法,可支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库
官方资源地址https://github.com/facebookresearch/faiss
unsetunsetFaiss基础依赖unsetunset
1)矩阵计算框架:Faiss与计算资源之间需要一个外部依赖框架,这个框架是一个矩阵计算框架,官方默认配置安装的是OpenBlas,另外也可以用Intel的MKL,相比于OpenBlas使用MKL作为框架进行编译可以提高一定的稳定性。
2)OpenMP:如果向量之间的相似性搜索是逐条进行的那计算效率会非常低,而Faiss内部实现使用了OpenMP,可以以batch的形式来进行搜素,实现计算效率的提升。
unsetunsetFaiss工作数据流unsetunset
在使用Faiss进行query向量的相似性搜索之前,需要将原始的向量集构建封装成一个索引文件(index file)并缓存在内存中,提供实时的查询计算。在第一次构建索引文件的时候,需要经过Train和Add两个过程。后续如果有新的向量需要被添加到索引文件的话还可以有一个Add操作从而实现增量build索引。
unsetunsetFaiss的核心unsetunset
Faiss本质上是一个向量(矢量)数据库。进行搜索时,基础是原始向量数据库,基本单位是单个向量,默认输入一个向量x,返回和x最相似的k个向量。其中的核心就是索引(index对象),Index继承了一组向量库,作用是对原始向量集进行预处理和封装,一般操作包括train和add,可以建成一个索引对象缓存在计算机内存中。所有向量在建立前需要明确向量的维度d,大多数的索引还需要训练阶段来分析向量的分布(除了IndexFlatL2)。当索引被建立就可以进行后续的search操作了。
Train:
目的:生成原向量中心点,残差(向量中心点的差值)向量中心点,部分预计算的距离
流程:
1)把原始向量分成M个子空间,针对每个子空间训练中心点(如果每个子空间的中心点为n,则pq可表达n的M次方个中心点)。
2)查找向量对应的中心点
3)向量减去对应的中心点生成残差向量
4)针对残差向量生成二级量化器。
Search:
Search操作时索引的重要部分,search方法涉及实际的相似度计算,返回的检索结果包括两个矩阵,分别为xq中元素与近邻的距离大小和近邻向量的索引序号。
unsetunset使用方法unsetunset
Faiss是为稠密向量提供高效相似度搜索的框架(Facebook AI Research),选择索引方式是faiss的核心内容,faiss 三个最常用的索引是:IndexFlatL2, IndexIVFFlat,IndexIVFPQ。
-
IndexFlatL2/ IndexFlatIP为最基础的精确查找。
-
IndexIVFFlat称为倒排文件索引,是使用K-means建立聚类中心,通过查询最近的聚类中心,比较聚类中的所有向量得到相似的向量,是一种加速搜索方法的索引。
- IndexIVFPQ是一种减少内存的索引方式,IndexFlatL2和IndexIVFFlat都会全量存储所有的向量在内存中,面对大数据量,faiss提供一种基于Product Quantizer(乘积量化)的压缩算法编码向量到指定字节数来减少内存占用。但这种情况下,存储的向量是压缩过的,所以查询的距离也是近似的。
下面以为代码的方式讲解Faiss使用
构建句子向量表示模型
import pandas as pd from transformers import AutoTokenizer, AutoModel import torch import torch.nn.functional as F import faiss import numpy as np import os from tqdm import tqdm os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
在下面的代码片段中,我们建立了一个SemanticEmbedding类,它使用预先训练的 MPNet 模型将文本编码为向量。这里我选用了sbert的多语言模型paraphrase-multilingual-mpnet-base-v2
class SemanticEmbedding: def __init__(self, model_name='sentence-transformers/all-mpnet-base-v2'): self.tokenizer = AutoTokenizer.from_pretrained(model_name) self.model = AutoModel.from_pretrained(model_name) # Mean Pooling - Take attention mask into account for correct averaging def mean_pooling(self, model_output, attention_mask): token_embeddings = model_output[0] # First element of model_output contains all token embeddings input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float() return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9) def get_embedding(self, sentences): # Tokenize sentences encoded_input = self.tokenizer(sentences, padding=True, truncation=True, return_tensors='pt') with torch.no_grad(): model_output = self.model(**encoded_input) # Perform pooling sentence_embeddings = self.mean_pooling(model_output, encoded_input['attention_mask']) # Normalize embeddings sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1) return sentence_embeddings.detach().numpy()
调用方法如下:
`model = SemanticEmbedding(r'I:\pretrained_models\bert\english\paraphrase-multilingual-mpnet-base-v2') a = model.get_embedding("我喜欢打篮球") print(a) print(a.shape)`
构建 Faiss 索引
Faiss 根据用户所需的功能提供多种不同索引选项。在下面代码中我们使用 IndexFlatIP,因为它的距离机制是内积,对于规范化嵌入而言,它与余弦相似度相同,值越大越相似。
在下面的代码中,我们创建了一个FaissIdx类,该类使用嵌入向量大小(在本例中为 768)初始化我们的索引,并使用计数器跟踪文档的 ID。请注意,Faiss 索引当前为空 — 它不包含任何文档向量。
然后向该类添加了两个方法来添加和搜索文档。为了实现这些方法,使用 Faiss 的 API 来获取文档的嵌入并搜索查询向量。请注意,搜索 API self.index.search 也接受参数 k 作为输入,它定义要返回的文档向量数量。在本例中,我们告诉该方法返回前三个文档向量,使用我们定义的 doc_map 数据结构来返回一个人类可读的文档。
class FaissIdx: def __init__(self, model, dim=768): self.index = faiss.IndexFlatIP(dim) # Maintaining the document data self.doc_map = dict() self.model = model self.ctr = 0 def add_doc(self, document_text): self.index.add(self.model.get_embedding(document_text)) self.doc_map[self.ctr] = document_text # store the original document text self.ctr += 1 def search_doc(self, query, k=3): D, I = self.index.search(self.model.get_embedding(query), k) return [{self.doc_map[idx]: score} for idx, score in zip(I[0], D[0]) if idx in self.doc_map]
测试索引
index = FaissIdx(model) index.add_doc("笔记本电脑") index.add_doc("医生的办公室") result=index.search_doc("个人电脑") print(result)
设置索引后,我们可以添加其他文档并对其进行搜索。在下面的代码中,我们添加文档“笔记本电脑”和“医生办公室”,然后搜索“PC 电脑”。请注意,“笔记本电脑”的相似度很高,而“医生办公室”的相似度很低,这是有道理的。请记住,余弦相似度的范围从 -1 到 1,其中 1 表示完全相似。
[{'笔记本电脑': 0.9483323}, {'医生的办公室': 0.39533424}]
构建语料索引
# 加载测试文档 data=pd.read_json('../../data/zh_refine.json', lines=True)[:50] print(data) print(data.columns) for documents in tqdm(data['positive'],total=len(data)): for document in documents: index.add_doc(document) for documents in tqdm(data['negative'],total=len(data)): for document in documents: index.add_doc(document) result=index.search_doc("2022年特斯拉交付量") print(result)
检索结果如下:
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。