如何使用时间加权向量存储检索器

tt_jishu

于 2024-10-04 03:55:18 发布

阅读量77

点赞数 2

文章标签：人工智能算法前端 python

本文链接：https://blog.csdn.net/tt_jishu/article/details/142698681

版权

引言

在现代信息检索系统中，语义相似度和时效性是两个关键因素。时间加权向量存储检索器结合了这两个因素，通过一种创新的算法实现了更有效的信息检索。在这篇文章中，我们将介绍如何使用时间加权向量存储检索器，包括其工作原理、实现代码和应对挑战的方法。

主要内容

1. 时间加权向量存储检索器的工作原理

时间加权向量存储检索器使用一种算法来综合评估对象的语义相似度和时间衰减。其评分公式如下：

评分 = 语义相似度 + (1.0 - 衰减率) ^ 小时数

需要注意的是，这里的小时数指的是对象在检索器中最后一次被访问后过去的时间，而不是自对象创建以来的时间。频繁访问的对象会保持“新鲜”。

2. 代码实现

低衰减率示例

低衰减率意味着检索器会长时间记住对象。将衰减率设为接近0时，检索器几乎不会遗忘对象。

from datetime import datetime, timedelta
import faiss
from langchain.retrievers import TimeWeightedVectorStoreRetriever
from langchain_community.docstore import InMemoryDocstore
from langchain_community.vectorstores import FAISS
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings

# 定义嵌入模型
embeddings_model = OpenAIEmbeddings()
# 初始化空的向量存储
embedding_size = 1536
index = faiss.IndexFlatL2(embedding_size)
vectorstore = FAISS(embeddings_model, index, InMemoryDocstore({}), {})
retriever = TimeWeightedVectorStoreRetriever(
    vectorstore=vectorstore, decay_rate=0.0000000000000000000000001, k=1
)

# 添加文档
yesterday = datetime.now() - timedelta(days=1)
retriever.add_documents(
    [Document(page_content="hello world", metadata={"last_accessed_at": yesterday})]
)
retriever.add_documents([Document(page_content="hello foo")])

# "Hello World" 返回，因为它的相关性最高，而且衰减率接近0，意味着它仍然最近
print(retriever.get_relevant_documents("hello world"))

高衰减率示例

高衰减率意味着最近性评分会快速变为0。将衰减率设为接近1时，所有对象的最近性评分都会为0，这就再次变成了向量查找。

# 定义嵌入模型
embeddings_model = OpenAIEmbeddings()
# 初始化空的向量存储
embedding_size = 1536
index = faiss.IndexFlatL2(embedding_size)
vectorstore = FAISS(embeddings_model, index, InMemoryDocstore({}), {})
retriever = TimeWeightedVectorStoreRetriever(
    vectorstore=vectorstore, decay_rate=0.999, k=1
)

# 添加文档
yesterday = datetime.now() - timedelta(days=1)
retriever.add_documents(
    [Document(page_content="hello world", metadata={"last_accessed_at": yesterday})]
)
retriever.add_documents([Document(page_content="hello foo")])

# "Hello Foo" 返回，因为 "hello world" 大部分已被遗忘
print(retriever.get_relevant_documents("hello world"))

使用虚拟时间

借助 LangChain 的一些工具，可以模拟时间组件。

import datetime
from langchain_core.utils import mock_now

# 注意这里的最后访问时间是那个日期时间
with mock_now(datetime.datetime(2024, 2, 3, 10, 11)):
    print(retriever.get_relevant_documents("hello world"))