对ChatGPT 瞎想
对ChatGPT的理解
网上对它理解专业名词太多,尝试着总结了一下,当然理解可能还有很多错误。主要是分3步
一、训练一个基础模型,它能理解人类问题中所包含意图,并给出答案
缺陷:这个答案是有权重的,部分权重高的答案不一定就是真正的答案
二、训练一个奖励模型
-
先用基础模型用同一个问题,回答出多个答案,例如先问三次:
问:老板,怎么样才能给我涨工资?
答案1 先吃了我这个饼再说
问:老板,怎么样才能给我涨工资?
答案2 提高自己的专业素质
问:老板,怎么样才能给我涨工资?
答案3 给公司再多创造100块钱价值,可以分你5块钱 -
然后人工给问题的答案打分。让模型知道哪些是高分的 答案。
问:老板,怎么样才能给我涨工资?
答案1 先吃了我这个饼再说 1分
答案2 疯狂干活给老板搬砖 3分
答案3 提高自己的专业素质,找到个好工作,再回来谈条件 4分
三、用奖励模型来训练基础模型,让基础模型回答的更加准确,比如我们抛弃小于3分的答案,这时基础模型回答该问题就只会有答案2和答案3
然后反复循环二、三。逐步提高基础模型质量
自己的瞎想
如果让基础模型直接爬取微信之类的点对点的聊天记录,
下一句就是上一句的答案,直接用答案出现的次数当成权重,不需要奖励模型了,这样没有了人的参与,就可以无休止的不停的跑了,这样会不会训练出一个人精?