【langchain学习】使用Elasticsearch和LangChain进行文档相似度搜索

分享如何使用 Elasticsearch 和 LangChain 进行文档相似度搜索。这种方法非常适合需要在大规模文档库中快速查找与特定查询语句相关的内容的场景。通过一个关于2023年环法自行车赛冠军温格高(Jonas Vingegaard)的案例来演示这一过程。

项目背景

假设我们拥有一系列关于温格高在2023年环法自行车赛中表现的文本数据。这些文本数据来源于不同的媒体,如新闻、评论、社交媒体等。我们的目标是将这些文档存储在 Elasticsearch 中,并使用 LangChain 提供的工具进行相似度搜索,以便快速检索相关内容。

主要步骤

1. 初始化 Elasticsearch 客户端和索引

首先,我们需要初始化一个 Elasticsearch 客户端,并确保在存储文档之前,删除可能存在的旧索引,并创建一个新的空索引。

# 导入所需的包和模块
from elasticsearch import Elasticsearch
from langchain_elasticsearch import ElasticsearchStore
from langchain_community.embeddings import HuggingFaceEmbeddings

# 初始化Elasticsearch客户端
es_client = Elasticsearch("http://localhost:9200")

# 指定索引名称
index_name = "langchain-demo"

# 重新创建索引(如果存在则删除并重新创建)
if es_client.indices.exists(index=index_name):
    es_client.indices.delete(index=index_name)
es_client.indices.create(index=index_name)
print(f"索引 '{
     index_name}' 已重新创建。")

通过上述代码,我们确保每次运行时,Elasticsearch 中的 langchain-demo 索引都是干净的,从而避免了旧数据的干扰。

2. 创建文档并添加到 Elasticsearch 中

接下来,我们创建一些与温格高相关的文档,并将它们添加到 Elasticsearch 索引中。

from uuid import uuid4
from langchain_core.documents import Document

# 创建一些示例文档
documents = [
    Document(page_content="温格高在2023年环法自行车赛中表现出色,最终获得了冠军。", metadata={
   
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值