运行环境:
Python3
Cmd(Alt + R)
提供数据集:
链接:https://pan.baidu.com/s/1o3zdSwmpLcN_vUMwxTQW0Q
提取码:w73i
//运行虚拟环境
C:\Users\92444>conda activate Pytorch
//下载openai
C:\Users\92444>pip install --upgrade openai
//查看openai是否下载成功
(Pytorch) C:\Users\92444>openai
//输入openai的密钥
(Pytorch)C:\Users\92444>set OPENAI_API_KEY="OPENAI_KEY"
//运行python
(Pytorch) C:\Users\92444>python
//引入panda包
>>> import pandas as pd
//取csv文件中前500行数据进行训练
>>>df_example=pd.read_csv('D:\\train.csv', header=None, index_col=False, nrows=500,names=['completion','prompt'])
//前500行数据生成csv文件
>>> df_example.to_csv('D:\\example.csv', index = False)
//退出python
>>> exit()
//转换csv文件格式为jsonl
(Pytorch)C:\Users\92444>openai tools fine_tunes.prepare_data -f D:\\example.csv
(注:格式转换的过程中会有四个判断:1,所有提示是否添加后缀分隔符’->’;2,是否在完成的开头添加一个空白字符;3,是否要拆分成训练集和验证集;4,转换为jsonL文件)在拆分训练集上可以自行判断,其他三个y就行。
//开始微调数据(一次处理64项,选择ada模型会节省训练时间)
(Pytorch)C:\Users\92444>openai api fine_tunes.create -t "D:\\example_prepared.jsonl" --batch_size 64 --model ada
//创建自己的模型
//可以在终端运行,也可以在openAI的PlayGround上运行
视屏参考:https://www.bilibili.com/video/BV1DU4y1c77Y/?spm_id_from=333.337.search-card.all.click