没想到这么快!ChatGPT3.5支持微调了!
雄哥之前还在群里说,估计10月份左右开放!
雄哥再次预测11月开放GPT4微调!(收到风)大家看准不准!~
雄哥团队也第一时间上传数据微调
大家猜!
3.5微调后的能力怎样?
ChatGPT3.5+微调+知识库=ChatGPT4
wowo!!!!!!!!!
当然!是在微调后垂直领域的发挥,通用模型老大还是GPT4!
总结:能力大幅加强!只能云端微调!可以chat使用!数据在云端!
如果你的数据非常敏感!还是建议本地部署,教程也有了!
傻瓜式!一键部署llama2+chatglm2,集成所有环境和微调功能,本地化界面操作!
《0基础微调大模型实战》思维导图(全)!主打喂饭到嘴!手把手扶着学走!
微调GPT3.5计费规则如下:
(成本比开源微调百万成本亲民多了~)
【nlp群】很多小朋友都跟着官方的教程去微调,发现很多问题,雄哥团队跑了之后,发现官方教程很多坑,没跑过的,绝对不知道这些坑在哪!
这里雄哥团队把整个微调过程,共享一下吧!
所有代码公号回复:“微调代码”
真的!快动起来吧!
整个过程非常的简单:
①充钱(没写错!)、②数据处理、③上传数据、④开始微调、⑤使用
是不是比本地部署模型简单多了!
一、充钱
不是给我充哈!
确保你在openai的账户余额足够你去微调,价格在上面都发出来了!
否则上传微调数据的时候,人家就不接收你的文件!
没钱了,他不会直接说没钱,反馈特别的含蓄!不懂的要折腾很久!
二、数据处理
微调GPT3.5跟以前微调3的数据格式不同,下图是个对比,大家要按照他要求的格式预处理!并且大于10条!否则报错!(保存.JSONL)
传统的微调数据格式:
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
ChatGPT3.5的微调数据格式:
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'Romeo and Juliet'?"}, {"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?"}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How far is the Moon from Earth?"}, {"role": "assistant", "content": "Around 384,400 kilometers. Give or take a few, like that really matters."}]}
雄哥团队整理了一份五千条“心理咨询”数据,得到的是温柔耐心的大姐姐,对比ChatGPT的序号1234的风格,简直太治愈了~
这个数据格式可以明确角色和内容,可实现在“系统”角色消息中指定了模型的特定风格。对模型的行为和风格有更“精致”的控制!
你懂的!
超1T的领域数据集,公号回复:“数据集”直接下载
数据集处理教程,或定制某方面数据,公号回复:“星球”联系
三、上传数据
这里雄哥的文件里,有一份python代码(data.py),自己去后台拿!
#data.py
import os
import openai
#pip install openai
openai.api_key = "换成自己的key"
# 上传训练文件,下面文件路径要改为自己本地路径
training_file = openai.File.create(
file=open("/Users/brucejan/Desktop/fine/X.jsonl","rb"),
purpose="fine-tune"
)
#本命令运行之后!file.id要复制下来,下一步开始微调要用
print(training_file.id)
那么运行一下吧,他会像这样返回一个ID,复制备用:
四、开始微调
打开另外一份代码文件,有一份(finetune.py)
import os
import openai
openai.api_key = "填自己的key"
openai.FineTuningJob.create(training_file="粘贴刚刚的文件ID", model="gpt-3.5-turbo")
就这么简单!运行完之后,openai会微调到ChatGPT3.5里!
五、运行使用
雄哥排队等了大概5个小时哈!终于收到了返回邮件!微调成功!
之后可以在聊天窗使用他啦!(当然代码使用也可以的!)
整个过程非常的湿滑!只要你的数据不敏感!首选!
加上外挂知识库,在垂直领域已经赶上GPT4了!
之后用API接口就可以玩出花来!
一意AI增效家
AI领域学习伴侣、大模型训练搭档、企服AI产品安全认证、专家培训咨询、企服知识图谱
行业初期,希望更多人加入,推进行业发展!一意公众号四大功能!
#1 高质量数据集
我搭建了一个训练数据共享平台,目前已收录法律、金融、医疗、教育、诗词等超1T的人工标注数据集,还可以通过群内共享。
#2 报错或问题解决
你可能像我们NLP学习群中的同学一样,遇到各种报错或问题,我每天挑选5条比较有代表性的问题及解决方法贴出来,供大家避坑;每天更新,欢迎来蹲!
#3 运算加速
还有同学是几年前的老爷机/笔记本,显卡不好,我们应用了动态运输技术框架,直接提升超40%运算效率,无显卡2g内存就能跑,直接焕发第二春;
#4 微调训练教程
如果你还不知道该怎么微调训练模型,在这里还可以学训练和微调,跟着一步步做,你也能把大模型的知识真正应用到实处,产生价值。