深入探索文本嵌入模型：从理论到实现

llzwxh888

于 2024-09-18 05:47:18 发布

阅读量178

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/ppoojjj/article/details/142322345

版权

引言

在自然语言处理（NLP）领域，文本嵌入是一个关键概念。通过将文本转换为向量空间中的向量表示，我们能够实现语义搜索等功能。本篇文章将介绍文本嵌入模型的核心思想，并展示如何使用几种流行的模型提供商（如OpenAI, Cohere, Hugging Face）来实现文本嵌入。

主要内容

文本嵌入概述

文本嵌入是将文本转换为数值向量的过程。这使得我们可以在向量空间中比较文本的相似性，从而进行语义搜索、文本聚类等操作。LangChain库提供了一个标准接口来使用不同的嵌入模型。

LangChain中的嵌入方法

LangChain中的Embeddings类提供两种主要方法：

embed_documents：用于嵌入多个文本，返回浮点数列表的列表。
embed_query：用于嵌入单个查询文本，返回一个浮点数列表。

这些方法的区分是为了适应不同嵌入提供商的API设计。

准备工作

开始使用之前，我们需要安装相关的库。以下是几个常见的嵌入模型提供商安装步骤。

OpenAI

pip install langchain-openai

需要API key，通过环境变量或直接在代码中传递：

from langchain_openai import OpenAIEmbeddings

embeddings_model = OpenAIEmbeddings(api_key="your_api_key")  # 使用API代理服务提高访问稳定性

Cohere

pip install langchain-cohere

同样，也需要API key：

from langchain_cohere import CohereEmbeddings

embeddings_model = CohereEmbeddings(cohere_api_key="your_api_key", model='embed-english-v3.0')  # 使用API代理服务提高访问稳定性

Hugging Face

pip install langchain-huggingface

选择模型后初始化：

from langchain_huggingface import HuggingFaceEmbeddings

embeddings_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")  # 使用API代理服务提高访问稳定性

代码示例

以下是如何使用embed_documents和embed_query的示例：

# 嵌入一组文本
embeddings = embeddings_model.embed_documents(
    [
        "Hi there!",
        "Oh, hello!",
        "What's your name?",
        "My friends call me World",
        "Hello World!"
    ]
)

print(len(embeddings), len(embeddings[0]))  # 输出: (5, 1536)

# 嵌入一个查询文本
embedded_query = embeddings_model.embed_query("What was the name mentioned in the conversation?")
print(embedded_query[:5])  # 输出: [0.0053, -0.0005, 0.0388, -0.0030, -0.0090]