【教程】降维打击！微调ChatGPT3.5后直逼GPT4！收费怎样？可以本地吗？一篇说清楚！

一意AI增效家

已于 2023-10-15 00:30:20 修改

阅读量455

点赞数 1

分类专栏： ChatGPT 文章标签： gpt-3

于 2023-08-24 22:55:30 首次发布

本文链接：https://blog.csdn.net/ouhuixiong/article/details/132484185

版权

ChatGPT 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

没想到这么快！ChatGPT3.5支持微调了！

雄哥之前还在群里说，估计10月份左右开放！

雄哥再次预测11月开放GPT4微调！(收到风)大家看准不准！~

雄哥团队也第一时间上传数据微调

大家猜！

3.5微调后的能力怎样？

ChatGPT3.5+微调+知识库=ChatGPT4

wowo！！！！！！！！！

当然！是在微调后垂直领域的发挥，通用模型老大还是GPT4！

总结：能力大幅加强！只能云端微调！可以chat使用！数据在云端！

如果你的数据非常敏感！还是建议本地部署，教程也有了！

傻瓜式！一键部署llama2+chatglm2，集成所有环境和微调功能，本地化界面操作！

《0基础微调大模型实战》思维导图（全）！主打喂饭到嘴！手把手扶着学走！

微调GPT3.5计费规则如下：

（成本比开源微调百万成本亲民多了~）

【nlp群】很多小朋友都跟着官方的教程去微调，发现很多问题，雄哥团队跑了之后，发现官方教程很多坑，没跑过的，绝对不知道这些坑在哪！

这里雄哥团队把整个微调过程，共享一下吧！

所有代码公号回复：“微调代码”

真的！快动起来吧！

整个过程非常的简单：

①充钱（没写错！）、②数据处理、③上传数据、④开始微调、⑤使用

是不是比本地部署模型简单多了！

一、充钱

不是给我充哈！

确保你在openai的账户余额足够你去微调，价格在上面都发出来了！

否则上传微调数据的时候，人家就不接收你的文件！

没钱了，他不会直接说没钱，反馈特别的含蓄！不懂的要折腾很久！

二、数据处理

微调GPT3.5跟以前微调3的数据格式不同，下图是个对比，大家要按照他要求的格式预处理！并且大于10条！否则报错！（保存.JSONL）

传统的微调数据格式：

{"prompt": "<prompt text>", "completion": "<ideal generated text>"}{"prompt": "<prompt text>", "completion": "<ideal generated text>"}{"prompt": "<prompt text>", "completion": "<ideal generated text>"}

ChatGPT3.5的微调数据格式：

{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already."}]}{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'Romeo and Juliet'?"}, {"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?"}]}{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How far is the Moon from Earth?"}, {"role": "assistant", "content": "Around 384,400 kilometers. Give or take a few, like that really matters."}]}

雄哥团队整理了一份五千条“心理咨询”数据，得到的是温柔耐心的大姐姐，对比ChatGPT的序号1234的风格，简直太治愈了~

这个数据格式可以明确角色和内容，可实现在“系统”角色消息中指定了模型的特定风格。对模型的行为和风格有更“精致”的控制！

你懂的！

超1T的领域数据集，公号回复：“数据集”直接下载

数据集处理教程，或定制某方面数据，公号回复：“星球”联系

三、上传数据

这里雄哥的文件里，有一份python代码(data.py)，自己去后台拿！

#data.pyimport osimport openai#pip install openaiopenai.api_key = "换成自己的key"# 上传训练文件，下面文件路径要改为自己本地路径training_file = openai.File.create(file=open("/Users/brucejan/Desktop/fine/X.jsonl","rb"),purpose="fine-tune")#本命令运行之后！file.id要复制下来，下一步开始微调要用print(training_file.id)

那么运行一下吧，他会像这样返回一个ID，复制备用：

四、开始微调

打开另外一份代码文件，有一份（finetune.py）

import osimport openaiopenai.api_key = "填自己的key"openai.FineTuningJob.create(training_file="粘贴刚刚的文件ID", model="gpt-3.5-turbo")

就这么简单！运行完之后，openai会微调到ChatGPT3.5里！

五、运行使用

雄哥排队等了大概5个小时哈！终于收到了返回邮件！微调成功！

之后可以在聊天窗使用他啦！（当然代码使用也可以的！）

整个过程非常的湿滑！只要你的数据不敏感！首选！

加上外挂知识库，在垂直领域已经赶上GPT4了！

之后用API接口就可以玩出花来！

一意AI增效家

AI领域学习伴侣、大模型训练搭档、企服AI产品安全认证、专家培训咨询、企服知识图谱

行业初期，希望更多人加入，推进行业发展！一意公众号四大功能！

#1 高质量数据集

我搭建了一个训练数据共享平台，目前已收录法律、金融、医疗、教育、诗词等超1T的人工标注数据集，还可以通过群内共享。

#2 报错或问题解决

你可能像我们NLP学习群中的同学一样，遇到各种报错或问题，我每天挑选5条比较有代表性的问题及解决方法贴出来，供大家避坑；每天更新，欢迎来蹲！

#3 运算加速

还有同学是几年前的老爷机/笔记本，显卡不好，我们应用了动态运输技术框架，直接提升超40%运算效率，无显卡2g内存就能跑，直接焕发第二春；

#4 微调训练教程

如果你还不知道该怎么微调训练模型，在这里还可以学训练和微调，跟着一步步做，你也能把大模型的知识真正应用到实处，产生价值。

一意AI增效家

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【教程】降维打击！微调ChatGPT3.5后直逼GPT4！收费怎样？可以本地吗？一篇说清楚！

还有同学是几年前的老爷机/笔记本，显卡不好，我们应用了动态运输技术框架，直接提升超40%运算效率，无显卡2g内存就能跑，直接焕发第二春；【nlp群】很多小朋友都跟着官方的教程去微调，发现很多问题，雄哥团队跑了之后，发现官方教程很多坑，没跑过的，绝对不知道这些坑在哪！雄哥团队整理了一份五千条“心理咨询”数据，得到的是温柔耐心的大姐姐，对比ChatGPT的序号1234的风格，简直太治愈了~如果你还不知道该怎么微调训练模型，在这里还可以学训练和微调，跟着一步步做，你也能把大模型的知识真正应用到实处，产生价值。
复制链接

扫一扫