如何使用ChatGPT API训练自定义知识库AI聊天机器人

最新推荐文章于 2024-09-22 10:30:00 发布

javastart

最新推荐文章于 2024-09-22 10:30:00 发布

阅读量9.2k

点赞数 6

分类专栏：大模型自然语言文章标签：人工智能 gpt-3 gpt chatgpt 机器人

原文链接：https://www.wbolt.com/how-to-train-ai-chatbot.html

版权

大模型同时被 2 个专栏收录

219 篇文章 52 订阅

订阅专栏

自然语言

157 篇文章 32 订阅

订阅专栏

原文：如何使用ChatGPT API训练自定义知识库AI聊天机器人 - 闪电博

在我们之前的文章中，我们演示了如何用ChatGPT API建立一个AI聊天机器人，并指定一个角色来进行个性化处理。但如果你想在自己的数据上训练人工智能呢？例如，你可能有一本书，金融数据，或一大套数据库，你希望能轻松地搜索它们。在这篇文章中，我们为你带来一个简单易行的教程，介绍如何用你的自定义知识库用LangChain和ChatGPT API训练AI聊天机器人。我们正在部署LangChain、GPT Index和其他强大的库，使用OpenAI的大型语言模型（LLM）训练AI聊天机器人。因此，在这一点上，让我们来看看如何使用自己的数据集来训练和创建一个人工智能聊天机器人。

在这篇文章中，我们更详细地解释了用自己的数据训练AI聊天机器人的步骤。从设置工具和软件到训练人工智能模型，我们用通俗易懂的语言包含了所有的说明。强烈建议按照说明从上到下进行，不要跳过任何部分。

在你用自己的数据训练人工智能之前，值得注意的几点

1. 你可以在任何平台上训练AI聊天机器人，无论是Windows、macOS、Linux还是ChromeOS。在本文中，我使用的是Windows 11，但其他平台的步骤几乎是相同的。

2. 该指南是为普通用户准备的，说明是用简单的语言解释的。因此，即使你对计算机有粗略的了解，也不知道如何编码，你也可以在几分钟内轻松训练并创建一个问答式人工智能聊天机器人。如果你关注我们之前的ChatGPT机器人文章，那就更容易理解这个过程了。

3. 由于我们要根据自己的数据来训练人工智能聊天机器人，所以建议使用具有良好CPU和GPU的电脑。然而，你可以使用任何低端电脑进行测试，它的工作没有任何问题。我使用Chromebook来训练AI模型，使用一本有100页的书（~100MB）。然而，如果你想训练一个庞大的数据集，运行到数千页，强烈建议使用强大的计算机。

4. 最后，数据集应该是英文的，以获得最好的结果，但根据OpenAI的说法，它也可以使用流行的国际语言，如法语、西班牙语、德语等。所以，去吧，用你自己的语言试试吧。

设置软件环境来训练人工智能聊天机器人

和我们之前的文章一样，你应该知道Python和Pip必须和几个库一起安装。在这篇文章中，我们将从头开始设置一切，这样新用户也能理解设置过程。为了给你一个简单的概念，我们将安装Python和Pip。之后，我们将安装Python库，其中包括OpenAI、GPT Index、Gradio和PyPDF2。在这一过程中，你将了解每个库的作用。同样，不要为安装过程而烦恼，它是非常直接的。在这一点上，让我们直接跳入。

安装Python

1. 首先，你需要在你的电脑上安装Python（Pip）。打开这个链接，下载适合你的平台的安装文件。

2. 接下来，运行安装文件，确保启用 “Add Python.exe to PATH” 的复选框。这是一个极其重要的步骤。之后，点击 “Install Now”，按照常规步骤安装Python。

3. 为了检查Python是否正确安装，在你的计算机上打开终端。我在Windows上使用Windows终端，但你也可以使用命令提示符。一旦在这里，运行下面的命令，它将输出Python版本。在Linux和macOS上，你可能必须使用 python3 --version 而不是 python --version。

python --version

升级Pip

当你安装Python时，Pip会同时安装在你的系统上。所以让我们把它升级到最新版本。对于那些不了解的人来说，Pip是Python的软件包管理器。基本上，它让你从终端安装成千上万的Python库。通过Pip，我们可以安装OpenAI、gpt_index、gradio和PyPDF2库。下面是需要遵循的步骤。

1. 在你的电脑上打开你选择的终端。我使用的是Windows终端，但你也可以使用命令提示符。现在，运行下面的命令来更新Pip。同样，你可能必须在Linux和macOS上使用 python3 和 pip3 。

python -m pip install -U pip

2. 要检查Pip是否被正确安装，请运行下面的命令。它将输出版本号。如果你得到任何错误，请遵循我们关于如何在Windows上安装Pip的专门指南，以解决PATH相关的问题。

pip --version

安装OpenAI、GPT Index、PyPDF2和Gradio库

一旦我们建立了Python和Pip，现在是时候安装必要的库，以帮助我们用自定义的知识库训练人工智能聊天机器人。以下是要遵循的步骤。

1. 打开终端，运行下面的命令来安装OpenAI库。我们将使用它作为LLM（大型语言模型）来训练和创建一个人工智能聊天机器人。而且我们还将从OpenAI导入LangChain框架。注意，Linux和macOS用户可能需要使用 pip3 而不是 pip。

pip install openai

2. 接下来，让我们安装GPT Index，它也被称为LlamaIndex。它允许LLM连接到外部数据，也就是我们的知识库。

pip install gpt_index

3. 之后，安装PyPDF2来解析PDF文件。如果你想把你的数据以PDF格式输入，这个库将帮助程序毫不费力地读取数据。

pip install PyPDF2

4. 最后，安装Gradio库。这是为了创建一个简单的用户界面，与训练好的人工智能聊天机器人进行互动。现在我们已经完成了训练人工智能聊天机器人所需的所有库的安装。

pip install gradio

下载一个代码编辑器

最后，我们需要一个代码编辑器来编辑一些代码。在Windows上，我推荐Notepad++（下载）。只需通过附件中的链接下载并安装该程序。如果你能适应强大的IDE，你也可以在任何平台上使用VS Code。除VS Code外，你可以在macOS和Linux上安装Sublime Text（下载）。

对于ChromeOS，你可以使用优秀的Caret应用程序（下载）来编辑代码。我们几乎完成了软件环境的设置，是时候获得OpenAI的API密钥了。

免费获取OpenAI的API密钥

现在，为了训练和创建一个基于自定义知识库的人工智能聊天机器人，我们需要从OpenAI获得一个API密钥。API密钥将允许你使用OpenAI的模型作为LLM来研究你的自定义数据并得出推论。目前，OpenAI正在向新用户提供免费的API密钥，前三个月有价值5美元的免费信用。如果你早些时候创建了你的OpenAI账户，你的账户中可能有18美元的免费信用。免费信用额度用完后，你将不得不为API访问付费。但就目前而言，所有用户都可以免费使用。

1. 前往 platform.openai.com/signup 并创建一个免费账户。如果你已经有一个OpenAI账户，只需登录。注：建议直接使用Google或者微软账号注册登录，注册需要使用到已支持国家或者地区的手机验证码，可以sms-activate.org（不要选印度或者印尼，泰国是可以收到验证码的）。

2. 接下来，在右上角点击你的个人资料，从下拉菜单中选择 “View API keys“。

3. 在这里，点击 “Create new secret key” 并复制API密钥。请注意，你以后不能复制或查看整个API密钥。因此，强烈建议立即复制和粘贴API密钥到一个记事本文件。

4. 此外，不要公开分享或显示API密钥。这是一个私人密钥，只用于访问你的账户。你也可以删除API密钥并创建多个私人密钥（最多五个）。

使用自定义知识库训练并创建一个人工智能聊天机器人

现在我们已经建立了软件环境并从OpenAI获得了API密钥，让我们来训练人工智能聊天机器人。在这里，我们将使用 “text-davinci-003” 模型，而不是最新的 “gpt-3.5-turbo” 模型，因为Davinci在文本完成方面效果更好。如果你愿意，你完全可以把模型改为Turbo，以减少成本。说完这些，让我们跳到说明上。

添加你的文件来训练人工智能聊天机器人

1. 首先，在一个可访问的位置（如桌面）创建一个名为 docs 的新文件夹。你也可以根据自己的喜好选择其他位置。然而，保持文件夹的名称为 docs。

2. 接下来，将你希望用于训练AI的文件移到 “docs” 文件夹内。你可以添加多个文本或PDF文件（甚至是扫描的文件）。如果你在Excel中有一个大表，你可以把它作为CSV或PDF文件导入，然后把它添加到 “docs” 文件夹中。你甚至可以添加SQL数据库文件，正如这条Langchain AI的推文所解释的。除了提到的那些，我还没有尝试过很多文件格式，但你可以自己添加和检查。对于这篇文章，我正在添加我的一篇关于NFT的PDF格式的文章。

注意：如果你有一个大文件，它将需要更长的时间来处理数据，这取决于你的CPU和GPU。此外，它将很快使用你的免费OpenAI tokens。因此，在开始时，从一个小文件（30-50页或<100MB的文件）开始，以了解这个过程。

做好代码准备

1. 现在，启动Notepad++（或你选择的代码编辑器），将下面的代码粘贴到一个新文件中。我再次从Google Colab的armrrs那里得到了很大的帮助，并对代码进行了调整，使其与PDF文件兼容，并在上面创建了一个Gradio界面。

from gpt_index import SimpleDirectoryReader, GPTListIndex, GPTSimpleVectorIndex, LLMPredictor, PromptHelper

from langchain import OpenAI

import gradio as gr

import sys

import os

os.environ["OPENAI_API_KEY"] = 'Your API Key'

def construct_index(directory_path):

max_input_size = 4096

num_outputs = 512

max_chunk_overlap = 20

chunk_size_limit = 600

prompt_helper = PromptHelper(max_input_size, num_outputs, max_chunk_overlap, chunk_size_limit=chunk_size_limit)

llm_predictor = LLMPredictor(llm=OpenAI(temperature=0.7, model_name="text-davinci-003", max_tokens=num_outputs))

documents = SimpleDirectoryReader(directory_path).load_data()

index = GPTSimpleVectorIndex(documents, llm_predictor=llm_predictor, prompt_helper=prompt_helper)

index.save_to_disk('index.json')

return index

def chatbot(input_text):

index = GPTSimpleVectorIndex.load_from_disk('index.json')

response = index.query(input_text, response_mode="compact")

return response.response

iface = gr.Interface(fn=chatbot,

inputs=gr.inputs.Textbox(lines=7, label="Enter your text"),

outputs="text",

title="Custom-trained AI Chatbot")

index = construct_index("docs")

iface.launch(share=True)

2. 这就是代码编辑器中的代码的样子。

3. 接下来，点击顶部菜单中的 “File”，从下拉菜单中选择 “Save As…“。

4. 之后，设置文件名 app.py，并从下拉菜单中将 “Save as type” 改为 “All types”。然后，将文件保存到你创建 “docs” 文件夹的位置（在我的例子中，是桌面）。你可以根据自己的喜好改变名称，但要确保是 .py 文件后缀。

5. 确保 “docs” 文件夹和 “app.py” 在同一个位置，如下面的截图所示。”app.py” 文件将在 “docs” 文件夹的外面，而不是里面。

6. 再次回到Notepad++中的代码。在这里，用上面在OpenAI网站上生成的API密钥替换你的API密钥。

7. 最后，按 “Ctrl + S” 来保存代码。现在你已经准备好运行该代码了。

用自定义知识库创建ChatGPT人工智能机器人

1. 首先，打开终端，运行下面的命令，移动到桌面。这是我保存 “docs” 文件夹和 “app.py” 文件的地方。如果你把这两个项目保存在其他位置，通过终端移动到那个位置。

cd Desktop

2. 现在，运行下面的命令。Linux和macOS用户可能要使用 python3。

python app.py

3. 现在，它将开始使用OpenAI LLM模型分析该文件，并开始为信息编制索引。根据文件的大小和你的计算机的能力，它将需要一些时间来处理该文件。一旦完成，将在桌面上创建一个 “index.json” 文件。如果终端没有显示任何输出，不要担心，它可能仍在处理数据。供你参考，处理一个30MB的文件大约需要10秒钟。