大模型RAG(二)向量化(embedding)

语义向量模型是什么?
语义向量模型(Embedding Model)被广泛应用于搜索、推荐、数据挖掘等重要领域,将自然形式的数据样本(如语言、代码、图片、音视频)转化为向量(即连续的数字序列),并用向量间的“距离”衡量数据样本之间的“相关性” 。

常见的Embedding模型

  1. BCEmbedding
    BCEmbedding (Bilingual and Crosslingual Embedding for RAG) 是由网易有道开发的双语和跨语种语义表征算法模型库,其中包含EmbeddingModel和RerankerModel两类基础模型。
  2. BGEEmbedding
    BGEEmbedding是一个通用向量模型由智源研究院开发,基于retroma 对模型进行预训练,再用对比学习在大规模成对数据上训练模型。
  3. M3E
    M3E(Moka Massive Mixed Embedding)使用场景主要是中文,少量英文的情况,建议使用 m3e 系列的模型。
  4. 针对场景微调embedding模型
    在外挂知识库的过程中,embedding模型的召回效果直接影响到大模型的回答效果,因此,在许多场景下,我们都需要微调embedding模型来提高我们的召回效果。

如何选取合适的Embedding模型

创建一个小型的内存向量数据库DocArrayInMemorySearch并在其中插入一些文本,这些文本包括:中文句子,英文句子,数字符号等,这里我们为了在后面检验大模型给出的答案是否是由于"幻觉"而产生的。所以会往向量数据库中插入一些违背常识的文本。

from langchain.embeddings import HuggingFaceBgeEmbeddings
 
bge_embeddings = HuggingFaceBgeEmbeddings(model_name="BAAI/bge-large-zh-v1.5")

vectordb = DocArrayInMemorySearch.from_texts(
    ["青蛙是食草动物",
     "人是由恐龙进化而来的。",
     "熊猫喜欢吃天鹅肉。",
     "1+1=5",
     "2+2=8",
     "3+3=9",
    "Gemini Pro is a Large Language Model was made by GoogleDeepMind",
     "A Language model is trained by predicting the next token"
    ],
    embedding=bge_embeddings 
)
 
# #创建检索器
bge_retriever = vectordb.as_retriever(search_kwargs={"k": 1})

这里我们创建了一个内存向量数据库vectordb,并在里面创建了3句中文,3句数字符号,2句英文的文本。然后我们又创建了一个检索器bge_retriever,它可以根据问题从向量数据库中检索出与问题最相关的文档,这里我们设置了bge_retriever的参数search_kwargs={“k”: 1},这表示beg_retriever每次只检索1条最相关的文档给用户。
实验过程中不断更换embedding模型,对比不同模型的检索效果,选取最合适的模型。

RAG之大模型常用向量数据库对比

https://zhuanlan.zhihu.com/p/364923722

1. Faiss库

  • 关键词:高效性、灵活性、Facebook支持
  • 功能特性:轻松将向量检索功能嵌入到深度学习,适合需要高效相似度搜索和丰富社区支持的大型应用。支持多种向量检索方式,包括内积、欧氏距离等,同时支持精确检索与模糊搜索。

2.Milvus

  • 关键词:大规模数据、云原生、高可用性
  • 功能特性:大规模内容检索、图像和视频搜索,适合需要处理超大规模数据的云端应用
    • 专为处理超大规模向量数据而设计
    • 提供云原生的分布式架构和存储方案
    • 支持多种索引类型和查询优化策略
    • 适用于大规模内容检索、图像和视频搜索等场景

3.Chroma

  • 关键词: 轻量级、易用性、开源
  • 功能特性:快速搭建小型语义搜索,适合初学者和小型项目
    • 提供高效的近似最近邻搜索(ANN)
    • 支持多种向量数据类型和索引方法
    • 易于集成到现有的应用程序中
    • 适用于小型到中型数据集
### 使用BGE模型实现文本向量化 #### BGE模型简介 BGE模型是由北京智源人工智能研究院(BAAI)开发的高性能开源嵌入模型,适用于多种自然语言处理任务。此模型能高效地将文本转换成向量表示,从而支持诸如文本分类、搜索以及推荐系统的应用[^1]。 #### 准备工作 为了利用BGE模型执行文本向量化操作,需先完成环境搭建并加载所需库文件。具体来说,应通过`sentence_transformers`这个Python库来进行操作,因为它极大地简化了与BGE模型交互的过程。可以通过如下命令安装该库: ```bash %pip install --upgrade --quiet sentence_transformers ``` #### 实现文本向量化 一旦完成了上述准备工作之后,就可以编写简单的脚本来获取给定字符串对应的向量表达形式。下面给出一段具体的代码实例展示怎样使用预训练好的BGE模型来获得输入句子或文档片段的嵌入向量: ```python from sentence_transformers import SentenceTransformer, util model_name = 'BAAI/bge-base-en' # 或者选择其他版本如bge-large-en model = SentenceTransformer(model_name) texts_to_embed = ["这是一个测试句", "Another example sentence."] embeddings = model.encode(texts_to_embed, convert_to_tensor=True) print(embeddings) ``` 这段程序首先导入必要的模块,并指定所使用的特定型号名称;接着创建了一个基于选定配置的新SentenceTransformer对象;最后传入待编码的文字列表至`.encode()`方法内得到相应的张量输出结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

自律也自由

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值