使用时间加权向量存储检索器的指南

最新推荐文章于 2024-10-01 09:29:45 发布

stjklkjhgffxw

最新推荐文章于 2024-10-01 09:29:45 发布

阅读量383

点赞数 4

文章标签： java 服务器前端 python

本文链接：https://blog.csdn.net/stjklkjhgffxw/article/details/142327159

版权

引言

在现代信息检索中，如何有效管理和检索随时间变化的动态信息是一个重要课题。本文介绍了一种结合语义相似性和时间衰减的检索器——时间加权向量存储检索器（Time-Weighted Vector Store Retriever）。该检索器在处理频繁访问的数据时表现优异，帮助开发者在保持信息“新鲜”的同时，提高检索效率。

主要内容

时间加权检索器的工作原理

时间加权检索器通过以下公式为对象评分：
[ \text{score} = \text{semantic_similarity} + (1.0 - \text{decay_rate}) ^ \text{hours_passed} ]

semantic_similarity：对象与查询的语义相似度。
decay_rate：衰减率，控制对象随时间的“遗忘”速度。
hours_passed：对象自上次访问以来的小时数。

这一机制确保了频繁访问的对象保持“新鲜”，从而提升检索效率。

几种衰减率的应用

低衰减率

低衰减率意味着信息将被长期“记忆”。当衰减率接近0时，信息几乎不会被遗忘，等同于传统向量查找。

from datetime import datetime, timedelta
import faiss
from langchain.retrievers import TimeWeightedVectorStoreRetriever
from langchain_community.docstore import InMemoryDocstore
from langchain_community.vectorstores import FAISS
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings

# 使用API代理服务提高访问稳定性
embeddings_model = OpenAIEmbeddings()
embedding_size = 1536
index = faiss.IndexFlatL2(embedding_size)
vectorstore = FAISS(embeddings_model, index, InMemoryDocstore({}), {})
retriever = TimeWeightedVectorStoreRetriever(
    vectorstore=vectorstore, decay_rate=0.0000000000000000000000001, k=1
)

yesterday = datetime.now() - timedelta(days=1)
retriever.add_documents(
    [Document(page_content="hello world", metadata={"last_accessed_at": yesterday})]
)
retriever.add_documents([Document(page_content="hello foo")])

# "Hello World" 优先返回，因为其依然“新鲜”
results = retriever.get_relevant_documents("hello world")
print(results)

高衰减率

高衰减率（接近1）使信息快速被“遗忘”。如果设置为1，所有对象的最近性得分为0，这等同于不考虑时间因素的向量查找。

# 使用API代理服务提高访问稳定性
retriever = TimeWeightedVectorStoreRetriever(
    vectorstore=vectorstore, decay_rate=0.999, k=1
)

yesterday = datetime.now() - timedelta(days=1)
retriever.add_documents(
    [Document(page_content="hello world", metadata={"last_accessed_at": yesterday})]
)
retriever.add_documents([Document(page_content="hello foo")])

# "Hello Foo" 优先返回，因为 "hello world" 被遗忘
results = retriever.get_relevant_documents("hello world")
print(results)

虚拟时间

通过LangChain工具，可以模拟时间，以测试不同时间点的检索效果。

import datetime
from langchain_core.utils import mock_now

# 使用API代理服务提高访问稳定性
with mock_now(datetime.datetime(2024, 2, 3, 10, 11)):
    results = retriever.get_relevant_documents("hello world")
    print(results)