使用LangChain实现Hybrid搜索：结合向量相似性与文本搜索

最新推荐文章于 2024-10-02 10:53:34 发布

ahdfwcevnhrtds

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量356

点赞数 5

文章标签： langchain python

本文链接：https://blog.csdn.net/ahdfwcevnhrtds/article/details/142322464

版权

引言

在现代信息检索中，"Hybrid"搜索成为了一种强大的工具，它结合了向量相似性搜索与其他文本搜索技术，如全文搜索和BM25算法。LangChain通过与多种向量存储（如Astra DB, ElasticSearch等）的集成，使得这种混合搜索得以实现。在这篇文章中，我们将探讨如何在LangChain中实现Hybrid搜索。

主要内容

支持Hybrid搜索的向量存储

要实现Hybrid搜索，首先需确保所用的向量存储支持这种功能。目前，LangChain尚未提供统一的Hybrid搜索接口。因此，我们需要查阅相应的文档或源代码以确定具体实现方法。

将参数设为可配置字段

一旦确定支持Hybrid搜索的参数，我们需要将其添加为链的可配置字段。这使得我们可以在运行时灵活配置相关标志。

调用具有可配置字段的链

在运行时，我们可以通过可配置字段调用链，这样可以随时调整搜索行为。

代码示例

下面是使用Astra DB和LangChain进行Hybrid搜索的一个示例。

# 安装必要的Python包
!pip install "cassio>=0.1.7"

# 初始化Cassio
import cassio

cassio.init(
    database_id="Your database ID",
    token="Your application token",
    keyspace="Your key space",
)

# 创建Cassandra VectorStore
from cassio.table.cql import STANDARD_ANALYZER
from langchain_community.vectorstores import Cassandra
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
vectorstore = Cassandra(
    embedding=embeddings,
    table_name="test_hybrid",
    body_index_options=[STANDARD_ANALYZER],
    session=None,
    keyspace=None,
)

# 添加文本
vectorstore.add_texts(
    [
        "In 2023, I visited Paris",
        "In 2022, I visited New York",
        "In 2021, I visited New Orleans",
    ]
)

# 标准相似性搜索
results = vectorstore.as_retriever().invoke("What city did I visit last?")
print(results)

# 使用body_search参数进行过滤
results_hybrid = vectorstore.as_retriever(search_kwargs={"body_search": "new"}).invoke(
    "What city did I visit last?"
)
print(results_hybrid)