[深入探索Elasticsearch中的嵌入生成：一步步指南]

本文链接：https://blog.csdn.net/stjklkjhgffxw/article/details/142376884

引言

自然语言处理中的嵌入（Embeddings）是将文本转化为数学向量的关键步骤。在Elasticsearch中使用托管的嵌入模型来生成这些向量，可以极大地提高文本搜索和分析的效率。本篇文章将带你深入了解如何通过Elasticsearch的托管嵌入模型生成嵌入，帮助你快速上手并解决常见问题。

主要内容

安装依赖

我们需要安装langchain-elasticsearch库以便使用Elasticsearch的嵌入功能。

!pip -q install langchain-elasticsearch

使用Elastic Cloud凭据

如果你使用Elastic Cloud，可以通过from_credentials方法实例化ElasticsearchEmbeddings。

from langchain_elasticsearch import ElasticsearchEmbeddings

# 定义模型ID
model_id = "your_model_id"

# 使用凭据创建ElasticsearchEmbeddings实例
embeddings = ElasticsearchEmbeddings.from_credentials(
    model_id,
    es_cloud_id="your_cloud_id",
    es_user="your_user",
    es_password="your_password",
)

使用已有的Elasticsearch连接

对于任何Elasticsearch部署，可以使用from_es_connection方法。

from elasticsearch import Elasticsearch
from langchain_elasticsearch import ElasticsearchEmbeddings

# 创建Elasticsearch连接
es_connection = Elasticsearch(
    hosts=["https://es_cluster_url:port"], basic_auth=("user", "password")
)

# 使用连接创建ElasticsearchEmbeddings实例
embeddings = ElasticsearchEmbeddings.from_es_connection(
    model_id,
    es_connection,
)

生成嵌入

无论使用哪种方式实例化ElasticsearchEmbeddings，都可以生成多个文档和单个查询的嵌入。

# 生成文档嵌入
documents = [
    "This is an example document.",
    "Another example document to generate embeddings for.",
]
document_embeddings = embeddings.embed_documents(documents)

# 打印文档嵌入
for i, embedding in enumerate(document_embeddings):
    print(f"Embedding for document {i+1}: {embedding}")

# 生成查询嵌入
query = "This is a single query."
query_embedding = embeddings.embed_query(query)

# 打印查询嵌入
print(f"Embedding for query: {query_embedding}")