Langchain的向量存储 - Document与简单字符串列表的区别

做个天秤座的程序猿

已于 2024-06-08 08:27:50 修改

阅读量419

点赞数 5

分类专栏： langchain 文章标签： langchain 人工智能算法

于 2024-06-08 08:14:14 首次发布

本文链接：https://blog.csdn.net/kljyrx/article/details/139493490

版权

langchain 专栏收录该内容

20 篇文章 2 订阅

订阅专栏

文章目录

前言
一、使用简单字符串列表
二、使用 `Document` 类
三、综合比较
四、示例对比
- 1：简单字符串列表
- 2：使用 `Document` 类
总结

前言

在 LangChain 中，使用简单字符串列表（如 texts 列表）和使用 Document 类表示文本有一些关键区别。主要区别在于数据的结构化程度和附加信息的存储能力。以下是详细的比较：

一、使用简单字符串列表

1. 示例

texts = ["Hello world", "Machine learning is fun", "LangChain is awesome"]

2. 优点

1） 简单直接：对于仅包含文本内容的情况，使用字符串列表非常简单明了。
2） 快速原型：对于快速创建和处理小规模文本数据，字符串列表是一个方便的选择。

3. 缺点

1） 缺乏结构：字符串列表无法存储与文本相关的元数据（如标题、作者、时间等）。
2） 扩展性差：当需要存储复杂的信息或进行更复杂的操作时，字符串列表的灵活性较低。

二、使用 `Document` 类

1. 示例

from langchain_core.documents import Document

doc = Document(
    page_content="Machine learning is a method of data analysis that automates analytical model building.",
    metadata={"title": "Introduction to Machine Learning", "author": "John Doe", "date": "2024-06-06"}
)

2. 优点

1） 结构化数据：Document 类允许将文本内容和元数据一起存储，使数据更加结构化。
2） 丰富的元数据支持：可以附加任意多的元数据，这对于需要详细上下文信息的应用非常有用。
3） 统一接口：与 LangChain 的其他组件（如向量存储、检索系统等）无缝集成，简化处理流程。
4） 灵活性：可以根据需要扩展和修改，适应更复杂的应用场景。

3. 缺点

1） 复杂性增加：相比简单的字符串列表，使用 Document 类需要更多的代码和设置。
2） 学习曲线：需要了解 Document 类的使用方法和相关的 API。

三、综合比较

特性	简单字符串列表 (`texts`)	`Document` 类
简洁性	高	较低
结构化数据支持	低	高
元数据支持	无	支持丰富的元数据
扩展性	差	高
与 LangChain 集成	较简单	更强
适用场景	简单的文本处理和快速原型设计	需要附加信息和更复杂操作的文本处理和分析

四、示例对比

1：简单字符串列表

texts = ["Hello world", "Machine learning is fun", "LangChain is awesome"]

# 假设我们有一个嵌入模型
from langchain.embeddings import OpenAIEmbeddings
embeddings = OpenAIEmbeddings()

# 将文本数据转换为向量
vectors = [embeddings.embed(text) for text in texts]

# 使用 FAISS 存储向量
from langchain.vectorstores import FAISS
vector_store = FAISS()
for vector, text in zip(vectors, texts):
    vector_store.add_vector(vector, text)

# 查询相似文本
query_text = "I love learning"
query_vector = embeddings.embed(query_text)
results = vector_store.similarity_search(query_vector)

print("Most similar texts:", results)

2：使用 `Document` 类

from langchain_core.documents import Document

# 创建一些文档对象
docs = [
    Document(
        page_content="Machine learning is a method of data analysis that automates analytical model building.",
        metadata={"title": "Introduction to Machine Learning", "author": "John Doe", "date": "2024-06-06"}
    ),
    Document(
        page_content="LangChain is a powerful framework for building applications with large language models.",
        metadata={"title": "LangChain Overview", "author": "Jane Doe", "date": "2024-06-05"}
    )
]

# 假设我们有一个嵌入模型
from langchain.embeddings import OpenAIEmbeddings
embeddings = OpenAIEmbeddings()

# 将文档内容转换为向量
vectors = [embeddings.embed(doc.page_content) for doc in docs]

# 使用 FAISS 存储向量
from langchain.vectorstores import FAISS
vector_store = FAISS()
for vector, doc in zip(vectors, docs):
    vector_store.add_vector(vector, doc)

# 查询相似文档
query_text = "Data analysis automation"
query_vector = embeddings.embed(query_text)
results = vector_store.similarity_search(query_vector)

print("Most similar documents:", results)

总结

选择使用简单字符串列表还是 Document 类，主要取决于具体的应用需求。如果仅需处理简单的文本数据，可以选择字符串列表；如果需要更丰富的上下文信息和更复杂的操作，Document 类会是更合适的选择。

做个天秤座的程序猿

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Langchain的向量存储 - Document与简单字符串列表的区别

在 LangChain 中，使用简单字符串列表（如texts列表）和使用Document类表示文本有一些关键区别。主要区别在于数据的结构化程度和附加信息的存储能力。选择使用简单字符串列表还是Document类，主要取决于具体的应用需求。如果仅需处理简单的文本数据，可以选择字符串列表；如果需要更丰富的上下文信息和更复杂的操作，Document类会是更合适的选择。
复制链接

扫一扫