Langchain的向量存储 - Document示例代码里的疑问


前言

之前的代码里有下面这句话,可能有看不明白的读者。

vectors = [embeddings.embed(doc.page_content) for doc in docs]

今天一起来看下这句话。

一、语句分析

这句话实际上是一个列表推导式,它的作用是遍历 docs 列表中的每个 Document 对象,并将每个 Document 对象的 page_content 属性通过 embeddings.embed 方法转换为向量,然后将所有这些向量组成一个新的列表 vectors

具体的步骤如下:

  1. 遍历 docs 列表for doc in docs 表示依次取出 docs 列表中的每个 Document 对象并赋值给 doc
  2. 提取 page_content:对于每个 Document 对象 doc,提取其 page_content 属性(即文档的文本内容)。
  3. 嵌入转换:将提取到的文本内容通过 embeddings.embed 方法转换为向量。embeddings.embed(doc.page_content) 返回的是一个向量表示。
  4. 生成向量列表:将所有转换得到的向量组成一个新的列表,并将该列表赋值给 vectors 变量。

这句话不会替换原来的 doc 值,而是生成一个新的向量列表。每个向量对应于 docs 列表中每个 Document 对象的 page_content 的向量表示。

二、 举例解释

假设我们有以下 docs 列表:

docs = [
    Document(page_content="Machine learning is a method of data analysis.", metadata={"title": "ML Intro"}),
    Document(page_content="LangChain is a powerful framework.", metadata={"title": "LangChain Overview"})
]

执行这句代码后:

vectors = [embeddings.embed(doc.page_content) for doc in docs]

假设 embeddings.embed 方法将文本转换为一个简单的数值向量,那么 vectors 可能是:

vectors = [
    [0.1, 0.2, 0.3, 0.4],  # 向量表示 "Machine learning is a method of data analysis."
    [0.5, 0.6, 0.7, 0.8]   # 向量表示 "LangChain is a powerful framework."
]

三、 完整代码

以下是一个完整的示例,展示了从文档到向量转换的过程,大家可以一起练一练:

from langchain_core.documents import Document
from langchain.embeddings import OpenAIEmbeddings

# 创建文档对象列表
docs = [
    Document(page_content="Machine learning is a method of data analysis.", metadata={"title": "ML Intro"}),
    Document(page_content="LangChain is a powerful framework.", metadata={"title": "LangChain Overview"})
]

# 初始化嵌入模型
embeddings = OpenAIEmbeddings()

# 将文档内容转换为向量
vectors = [embeddings.embed(doc.page_content) for doc in docs]

# 输出向量列表
for i, vector in enumerate(vectors):
    print(f"Vector for doc {i+1}: {vector}")

总结

这句话的主要目的是将每个 Document 对象的文本内容转换为向量,并将所有这些向量组成一个新的列表 vectors,方便后续的向量存储和检索操作。它不会修改原来的 Document 对象,而是生成一个新的向量列表。

  • 14
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Langchain向量数据库是一种基于向量相似性搜索的数据库系统。它使用了最新的语义搜索技术,可以高效地存储和检索大规模的向量数据。Langchain向量数据库的主要特点包括: 1. 高效存储Langchain向量数据库使用了紧凑的向量存储格式,可以有效地存储大规模的向量数据。它采用了一系列的压缩算法和索引结构,可以显著减少存储空间的占用。 2. 快速检索:Langchain向量数据库支持高效的向量相似性搜索。它使用了基于树结构的索引方法,可以快速定位到与查询向量相似的数据项。同时,Langchain向量数据库还支持多种相似性度量方法,如欧氏距离、余弦相似度等。 3. 扩展性:Langchain向量数据库具有良好的扩展性。它支持分布式部署,可以在多台服务器上进行数据存储和计算。同时,Langchain向量数据库还提供了高效的数据迁移和负载均衡机制,可以方便地扩展系统的容量和性能。 4. 应用场景:Langchain向量数据库适用于各种需要进行向量相似性搜索的场景,如图像搜索、音频搜索、文本搜索等。它可以广泛应用于电子商务、智能推荐、人脸识别等领域。 测试点: - Langchain向量数据库的性能如何? - Langchain向量数据库支持哪些相似性度量方法? - Langchain向量数据库的存储格式是怎样的? - Langchain向量数据库的分布式部署如何实现? - Langchain向量数据库在哪些领域有应用案例? - Langchain向量数据库的优势和劣势是什么?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值