从 RAG 系统中获得最佳结果并不总是那么直接。你把文档切分成什么样子,检索多少片段,甚至你使用的策略(简单检索、查询重写、重排……)都会显著影响最终答案的质量。
我们将为一个数据集创建一个端到端的最佳 RAG 查找管道,你可以轻松地自定义它以包含不同的技术等。
准备环境
每个好的项目都始于正确的工具。我们将安装一些重要的 Python 库来搭建一切。
# 安装库(如果需要,只运行一次)
!pip install openai pandas numpy faiss-cpu ipywidgets tqdm scikit-learn
运行安装后,你可能需要 重启你的 Jupyter 内核或运行时,以便更改生效。
现在我们已经安装好了,让我们将所有内容导入到我们的脚本中。
import os # 用于访问环境变量&