Langchain的向量存储 - Document高级运用之metadata

做个天秤座的程序猿

已于 2024-07-17 10:21:50 修改

阅读量2.5k

点赞数 19

分类专栏： langchain 文章标签： langchain 人工智能 Document metadata

于 2024-06-09 07:44:15 首次发布

本文链接：https://blog.csdn.net/kljyrx/article/details/139493833

版权

langchain 专栏收录该内容

21 篇文章

订阅专栏

文章目录

前言
一、元数据可以增强搜索和后处理的效果
二、示例分析
- 1. 示例
- 2. 结果分析
三、高级用法
总结

前言

前几篇文章中，我们在代码示例里看见Document的组成部分里有metadata。
在 LangChain 的向量存储和检索过程中，metadata 可以在多个方面发挥重要作用。虽然在简单的相似性搜索中，主要是通过文本内容的向量进行匹配，但元数据在多个方面可以增强搜索和后处理的效果。

一、元数据可以增强搜索和后处理的效果

1. 提高搜索的准确性和相关性

在一些高级检索场景中，除了使用文本内容的向量表示进行相似性搜索，还可以将元数据作为辅助信息进行加权或筛选。例如：

加权搜索：可以对文档的不同元数据赋予权重，例如标题、作者、发布日期等。通过这种方式，搜索结果不仅仅依赖于内容相似度，还会考虑元数据的匹配程度。
筛选和过滤：在搜索结果中，可以根据元数据进行过滤，比如只返回特定作者的文章或某一日期之后的文档。这种方法在需要精确搜索时非常有用。

2. 提供更丰富的搜索结果展示

在展示搜索结果时，元数据可以用于提供更丰富和有用的信息，使用户更容易理解和选择合适的结果。例如：

显示文档标题和作者：用户在查看搜索结果时，可以看到每篇文档的标题、作者和发布日期等信息，而不仅仅是文档内容的片段。
分类和排序：搜索结果可以根据元数据进行分类和排序，例如按日期排序或按作者分类展示。

3. 支持多种检索模式

元数据可以支持多种检索模式，如混合搜索（hybrid search），即结合向量相似度搜索和基于元数据的布尔搜索。例如：

布尔检索：用户可以指定一些元数据条件，如“查找所有2024年发布的机器学习相关文档”。
混合检索：结合文本内容和元数据进行检索，提高搜索结果的多样性和准确性。

二、示例分析

我们以之前的 Document 类示例为基础，展示元数据在搜索过程中的实际应用。

1. 示例

from langchain_core.documents import Document
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS

# 创建一些文档对象
docs = [
    Document(
        page_content="Machine learning is a method of data analysis that automates analytical model building.",
        metadata={"title": "Introduction to Machine Learning", "author": "John Doe", "date": "2024-06-06"}
    ),
    Document(
        page_content="LangChain is a powerful framework for building applications with large language models.",
        metadata={"title": "LangChain Overview", "author": "Jane Doe", "date": "2024-06-05"}
    )
]

# 初始化嵌入模型
embeddings = OpenAIEmbeddings()

# 将文档内容转换为向量
vectors = [embeddings.embed(doc.page_content) for doc in docs]

# 使用 FAISS 存储向量
vector_store = FAISS()
for vector, doc in zip(vectors, docs):
    vector_store.add_vector(vector, doc)

# 查询相似文档
query_text = "Data analysis automation"
query_vector = embeddings.embed(query_text)
results = vector_store.similarity_search(query_vector)

# 展示搜索结果，包含元数据
for result in results:
    print("Content:", result.page_content)
    print("Title:", result.metadata["title"])
    print("Author:", result.metadata["author"])
    print("Date:", result.metadata["date"])
    print("------")

2. 结果分析

在上面的示例中，通过将 Document 类中的元数据与搜索结果一起展示，用户可以更直观地了解每个文档的相关信息。

三、高级用法

我们还可以基于元数据进行更高级的操作，如：

基于元数据的筛选：
- 可以仅返回特定作者的文档。
- 可以过滤掉发布日期早于某一时间的文档。
结果排序：
- 可以按照发布日期排序，确保最新的内容优先展示。
- 可以按照文档标题或其他元数据字段排序。

1. 示例改进：基于元数据的过滤

假设我们希望在搜索结果中只返回 John Doe 的文档，我们可以这样做：

# 查询相似文档
query_text = "Data analysis automation"
query_vector = embeddings.embed(query_text)
results = vector_store.similarity_search(query_vector)

# 过滤结果
filtered_results = [result for result in results if result.metadata["author"] == "John Doe"]

# 展示过滤后的搜索结果
for result in filtered_results:
    print("Content:", result.page_content)
    print("Title:", result.metadata["title"])
    print("Author:", result.metadata["author"])
    print("Date:", result.metadata["date"])
    print("------")

很高兴你喜欢这个思路！为了进一步强化这个概念，我们可以再扩展一些实际应用中的具体示例，以便更好地理解如何利用元数据进行高级搜索和处理。

2. 高级搜索与排序

假设我们有一个文档库，包含大量技术文档和研究论文，我们希望用户能够根据作者、发布日期、关键词等进行高级搜索和排序。

# 创建文档对象列表
docs = [
    Document(
        page_content="Machine learning is a method of data analysis that automates analytical model building.",
        metadata={"title": "Introduction to Machine Learning", "author": "John Doe", "date": "2024-06-06"}
    ),
    Document(
        page_content="LangChain is a powerful framework for building applications with large language models.",
        metadata={"title": "LangChain Overview", "author": "Jane Doe", "date": "2024-06-05"}
    ),
    Document(
        page_content="Deep learning extends machine learning by introducing neural networks with multiple layers.",
        metadata={"title": "Deep Learning Basics", "author": "John Doe", "date": "2024-05-10"}
    )
]

# 初始化嵌入模型
embeddings = OpenAIEmbeddings()

# 将文档内容转换为向量
vectors = [embeddings.embed(doc.page_content) for doc in docs]

# 使用 FAISS 存储向量
vector_store = FAISS()
for vector, doc in zip(vectors, docs):
    vector_store.add_vector(vector, doc)

# 查询相似文档
query_text = "Neural networks"
query_vector = embeddings.embed(query_text)
results = vector_store.similarity_search(query_vector)

# 过滤和排序结果：只返回 John Doe 的文档，并按日期排序
filtered_results = [result for result in results if result.metadata["author"] == "John Doe"]
sorted_results = sorted(filtered_results, key=lambda x: x.metadata["date"], reverse=True)

# 展示过滤和排序后的搜索结果
for result in sorted_results:
    print("Content:", result.page_content)
    print("Title:", result.metadata["title"])
    print("Author:", result.metadata["author"])
    print("Date:", result.metadata["date"])
    print("------")

3. 布尔检索与混合搜索

我们希望用户可以进行布尔检索，比如查找所有包含特定关键词并且在特定日期之后发布的文档。

# 布尔检索和混合搜索
query_text = "machine learning"
query_vector = embeddings.embed(query_text)

# 假设我们希望查找2024年6月1日之后的文档
date_threshold = "2024-06-01"

# 相似性搜索并基于元数据进行过滤
results = vector_store.similarity_search(query_vector)
filtered_results = [result for result in results if result.metadata["date"] > date_threshold]

# 展示过滤后的搜索结果
for result in filtered_results:
    print("Content:", result.page_content)
    print("Title:", result.metadata["title"])
    print("Author:", result.metadata["author"])
    print("Date:", result.metadata["date"])
    print("------")

4. 多字段排序

用户可能希望对搜索结果进行多字段排序，例如先按作者排序，再按发布日期排序。

# 多字段排序：先按作者排序，再按日期排序
query_text = "machine learning"
query_vector = embeddings.embed(query_text)
results = vector_store.similarity_search(query_vector)

# 多字段排序
sorted_results = sorted(results, key=lambda x: (x.metadata["author"], x.metadata["date"]), reverse=True)

# 展示排序后的搜索结果
for result in sorted_results:
    print("Content:", result.page_content)
    print("Title:", result.metadata["title"])
    print("Author:", result.metadata["author"])
    print("Date:", result.metadata["date"])
    print("------")