Langchain使用介绍之 - 基于向量存储进行检索

本文详细阐述了使用Langchain将文本转换为向量,存储在Chroma等向量数据库中,以及利用这些向量进行问题检索的过程,涉及多种模型和技术如SentenceTransformer、OpenAIEmbeddings和RetrievalQAChain。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Text Embedding Models

  如何将一段Document转换成向量存储到向量数据库中,首先需要了解Langchain提供了哪些将文本转换成向量的model,langchian提供了很多将自然语言转换成向量的的模型,如下图所示,除了下图列举的model,更多支持的model可参考官网信息

   这里将以Langchain提供的SentenceTransformerEmbeddings和OpenAIEmbeddings为例子,通过实际代码来看看如何把一段自然语言转换成向量。SentenceTransformers 嵌入通过 HuggingFaceEmbeddings 集成进行调用,langchain还为那些更熟悉直接使用该包的用户添加了 SentenceTransformerEmbeddings 的别名,所以,本质上,SentenceTransformerEmbeddings和HuggingFaceEmbeddings是同一个内容,查看源代码也可以看到SentenceTransformerEmbeddings里面只是将HuggingFaceEmbeddings赋值给它而已,源代码如下图所示:

  所以,调用HuggingFaceEmbeddings和调用SentenceTransformerEmbeddings是一样的。下面的代码中调用HuggingFaceEmbeddings(),传入使用的model名称,这里使用的是"all-MinLM-L6-v2",通过调用embed_query(text)就能得到文本的向量数据。

import os
import openai
import numpy as np
from langchain.embeddings import HuggingFaceEmbeddings, SentenceTransformerEmbeddings
from langchain.embeddings import OpenAIEmbeddings

embeddings = HuggingF
<think>好的,我现在需要帮助用户解决如何在本地使用LangChain结合BGE-large-zh-v1.5向量模型的问题。用户之前可能已经了解过这个模型的基本信息,现在需要具体的部署步骤。 首先,我得回忆一下BGE模型的相关知识。根据引用[1]和[2],BGE-large-zh-v1.5是FlagEmbedding项目的一部分,专注于文本检索和语义相似度计算。用户需要在本地部署,所以需要安装相关的库,比如transformers和langchain。 接下来,安装步骤。用户需要安装langchain和transformers库,可能还需要sentence-transformers,因为BGE模型是基于这个框架的。安装命令应该是pip install这些包。 然后,模型的加载。根据引用[1],使用AutoTokenizer和AutoModel从HuggingFace加载模型,指定模型名称BAAI/bge-large-zh-v1.5。这里可能需要提醒用户确保网络通畅,或者如果下载慢的话使用镜像源。 接着,如何将模型集成到LangChain中。LangChainHuggingFaceEmbeddings类可以包装本地模型,所以需要创建实例,传入模型和tokenizer。可能还需要设置encode_kwargs参数,比如normalize_embeddings为True,这对某些应用场景有帮助。 验证部署部分,用户需要测试生成的嵌入向量是否符合预期,比如检查向量的维度和是否归一化。这里可能需要给出示例代码,比如用model.encode方法测试一个句子。 此外,用户可能需要知道如何在实际应用中使用这个嵌入模型,比如在文档检索或问答系统中。可以提到结合FAISS或Chroma进行向量存储,并给出简单的示例步骤。 还要注意可能的常见问题,比如模型下载失败、设备支持(是否使用GPU)、以及归一化的重要性。例如,引用[2]提到模型经过优化,归一化可能影响相似度计算的结果。 最后,生成相关问题的时候,要考虑用户可能的后续疑问,比如性能优化、处理长文本的方法,或者与其他模型对比的优势。这些都需要基于之前的步骤和模型特点来设计。</think>以下是在本地使用LangChain结合BGE-large-zh-v1.5向量模型的完整部署方法: ### 一、环境准备 1. 安装依赖库 ```bash pip install langchain transformers sentence-transformers ``` ### 二、模型部署 1. 本地模型加载(需4.3GB存储空间) ```python from langchain.embeddings import HuggingFaceEmbeddings from transformers import AutoModel, AutoTokenizer model_name = "BAAI/bge-large-zh-v1.5" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name) ``` 2. LangChain集成配置 ```python embed_model = HuggingFaceEmbeddings( model_name=model_name, model_kwargs={'device': 'cpu'}, # 或'cuda'使用GPU encode_kwargs={ 'normalize_embeddings': True # 推荐开启归一化[^2] } ) ``` ### 三、使用验证 ```python # 生成文本向量 text = "自然语言处理技术" embedding = embed_model.embed_query(text) print(f"向量维度:{len(embedding)}") # 应输出1024维 ``` ### 四、实际应用示例 ```python from langchain.text_splitter import CharacterTextSplitter from langchain.vectorstores import FAISS # 文档处理 documents = ["文本内容1", "文本内容2..."] text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50) docs = text_splitter.create_documents(documents) # 创建向量库 vector_store = FAISS.from_documents(docs, embed_model) ``` ### 注意事项 1. 首次运行会自动下载模型文件(约2.4GB) 2. 推荐使用GPU加速(需安装PyTorch GPU版本) 3. 归一化参数`normalize_embeddings`对相似度计算效果显著[^2] 4. 长文本建议分割为512token以内的片段
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

taoli-qiao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值