Document AI 项目教程
1、项目介绍
document-ai
是一个基于向量数据库和 GPT-3.5 的通用本地知识库方案。该项目旨在通过将本地答案数据集转换为向量存储,并利用 GPT-3.5 优化回答内容的结构,提供一个高效的本地知识库解决方案。特别适用于需要引用相关领域内容回复的场景,如客服聊天等。
2、项目快速启动
环境准备
确保你已经安装了 Docker 和 Docker Compose。
启动项目
-
克隆项目仓库:
git clone https://github.com/coderabbit214/document-ai.git cd document-ai
-
配置
config/config.yaml
文件,设置必要的参数,如端口、OpenAI 的 API 密钥等。 -
启动 Docker 容器:
docker-compose up -d
上传测试数据
使用以下命令上传测试数据:
curl --location --request POST 'http://127.0.0.1:9999/data/json' \
--header 'Content-Type: application/json' \
--data-raw '[
{
"title": "普通感冒",
"text": "您会出现喉咙发痒或喉咙痛,流鼻涕,流清澈的稀鼻涕(液体),有时轻度发热"
},
{
"title": "常年过敏",
"text": "症状包括鼻塞或流鼻涕,鼻、口或喉咙发痒,眼睛流泪、发红、发痒、肿胀,打喷嚏"
}
]'
提问
通过以下 URL 进行提问:
http://127.0.0.1:9999/
3、应用案例和最佳实践
应用案例
- 客服聊天机器人:通过引用本地知识库中的相关内容,提供更加准确和专业的回答。
- 文档处理:自动提取文档中的关键信息,并进行结构化处理。
最佳实践
- 数据集优化:确保上传的数据集质量高,内容准确,以提高查询的准确性。
- 模型调优:根据实际应用场景,调整 GPT-3.5 的参数,以获得最佳的回答效果。
4、典型生态项目
- Qdrant:一个高效的向量数据库,用于存储和管理向量数据。
- OpenAI GPT-3.5:提供强大的自然语言处理能力,优化回答内容的结构。
通过以上步骤,你可以快速启动并使用 document-ai
项目,实现高效的本地知识库管理。