chatGPT

对ChatGPT 瞎想

对ChatGPT的理解

网上对它理解专业名词太多,尝试着总结了一下,当然理解可能还有很多错误。主要是分3步

一、训练一个基础模型,它能理解人类问题中所包含意图,并给出答案
缺陷:这个答案是有权重的,部分权重高的答案不一定就是真正的答案

二、训练一个奖励模型

  1. 先用基础模型用同一个问题,回答出多个答案,例如先问三次:
    问:老板,怎么样才能给我涨工资?
    答案1 先吃了我这个饼再说
    问:老板,怎么样才能给我涨工资?
    答案2 提高自己的专业素质
    问:老板,怎么样才能给我涨工资?
    答案3 给公司再多创造100块钱价值,可以分你5块钱

  2. 然后人工给问题的答案打分。让模型知道哪些是高分的 答案。
    问:老板,怎么样才能给我涨工资?
    答案1 先吃了我这个饼再说 1分
    答案2 疯狂干活给老板搬砖 3分
    答案3 提高自己的专业素质,找到个好工作,再回来谈条件 4分

三、用奖励模型来训练基础模型,让基础模型回答的更加准确,比如我们抛弃小于3分的答案,这时基础模型回答该问题就只会有答案2和答案3
然后反复循环二、三。逐步提高基础模型质量

自己的瞎想

如果让基础模型直接爬取微信之类的点对点的聊天记录,
下一句就是上一句的答案,直接用答案出现的次数当成权重,不需要奖励模型了,这样没有了人的参与,就可以无休止的不停的跑了,这样会不会训练出一个人精?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值